于东
- 作品数:46 被引量:98H指数:5
- 供职机构:北京语言大学更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术电子电信语言文字艺术更多>>
- 汉语文本可读性特征体系构建和效度验证被引量:35
- 2020年
- 本文研究如何利用汉语文本的语言特征对文本的可读性进行分析。首先从汉字、词汇、句法和篇章四个层面出发,构建了一个预测汉语文本可读性的多层面、多维度特征体系,该特征体系包含13个维度共104项指标。然后以12个年级的语文教材语料库为基础,通过建立机器学习模型考察不同层面、不同维度语言特征的预测能力。实验结果显示:汉字、词汇、句法和篇章四个层面中,基于词汇层面特征的模型准确率最高,基于篇章层面特征的模型准确率最低;13个维度中,预测准确率最高的前5个维度依次为汉字熟悉度、汉字多样性、词汇多样性、短语句法结构复杂度和词汇熟悉度。我们还发现,四个层面语言特征对低难度文本的预测能力均最强。
- 吴思远于东江新
- 关键词:语言特征效度验证
- 自然语言显式命题自动识别和解析方法被引量:1
- 2021年
- 自然语言中包含很多显式命题,正确理解这些命题是理解文本信息的关键。正确识别显式命题并解析其中的关键成分有助于理清语言中的逻辑关系、辅助自然语言理解。该文基于百度百科数据构建了自然语言显式命题标注数据集,并提出两个研究任务:自然语言显式命题自动识别和命题关键成分解析。其中,显式命题自动识别任务判断一个自然语言句子是否为命题;显式命题关键成分解析任务从已获取的命题中解析出支撑该命题成立的关键成分。针对任务一,构建基于BERT的二分类模型;针对任务二,构建基于BERT-BiLSTM-CRF的序列标注模型。实验结果表明,模型在任务一的正确率达到74.95%,超过基线模型15.30%;在任务二的F值达到90.74%,超过基线模型17.69%。该文为下一步研究提供了可靠的标注数据集和基线方法。
- 刘璐彭诗雅玉郴于东
- 文本可读性的自动分析研究综述被引量:16
- 2018年
- 文本可读性问题最初由教育学家提出,初衷是辅助教师为语言学习者推荐适合其阅读水平的文本。随着计算机技术的发展及网页文本的涌现,对文本进行可读性分析有了更加丰富的技术手段和应用场景。该文对可读性自动分析的相关研究进行了梳理,将可读性自动分析的方法总结为公式法、分类法和排序法三类;然后进一步介绍了可读性自动分析中的两项重要内容:文本特征的选择和数据集的使用;最后对可读性研究的发展方向进行展望。
- 吴思远蔡建永于东江新
- 关键词:特征提取
- 基于Word Embedding语义相似度的字母缩略术语消歧被引量:6
- 2014年
- 该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧。方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据。利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系。在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能。该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权。针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%。
- 于东荀恩东
- 关键词:WORDEMBEDDING语义相似度
- 面向人工智能伦理计算的中文道德词典构建方法研究被引量:3
- 2021年
- 道德词典资源建设是人工智能伦理计算的一个研究重点。由于道德行为复杂多样,现有的英文道德词典分类体系并不完善,而中文方面目前尚未有相关的词典资源,理论体系和构建方法仍待探究。针对以上问题,该文提出了面向人工智能伦理计算的中文道德词典构建任务,设计了四类标签和四种类型,得到包含25012个词的中文道德词典资源。实验结果表明,该词典资源不仅能够使机器学会道德知识、判断词的道德标签和类型,而且能够为句子级别的道德文本分析提供数据支持。
- 王弘睿刘畅于东
- 关键词:道德判断
- 基于点关联测度矩阵分解的中英跨语言词嵌入
- 研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题.以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息.分别设计目标函数学习中英跨语言词...
- 于东赵艳韦林煊荀恩东
- 关键词:跨语言矩阵分解
- 基于知网义原词向量表示的无监督词义消歧方法被引量:15
- 2015年
- 词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。
- 唐共波于东荀恩东
- 关键词:《知网》词义消歧
- 一种基于文图注意力机制的多模态机器翻译方法及装置
- 本发明涉及机器翻译技术领域,特别是指一种基于文图注意力机制的多模态机器翻译方法及装置。方法包括:将源语言文本输入到训练好的文图生成模型,基于文图生成过程、源语言文本的文本向量、对应的生成图像,得到扩散注意力矩阵;根据翻译...
- 于东郭雯钰刘鹏远
- 结合深度学习和语言难度特征的句子可读性计算方法被引量:3
- 2022年
- 该文提出了可读性语料库构建的改进方法,基于该方法,构建了规模更大的汉语句子可读性语料库。该语料库在句子绝对难度评估任务上的准确率达到78.69%,相对前人工作提升了15%以上,证明了改进方法的有效性。同时,将深度学习方法应用于汉语可读性评估,探究了不同深度学习方法自动捕获难度特征的能力,并进一步探究了向深度学习特征中融入不同层面的语言难度特征对模型整体性能的影响。实验结果表明,不同深度学习模型捕获难度特征的能力不尽相同,语言难度特征可以不同程度地提高可读性评估模型的难度表征能力。
- 唐玉玲张宇飞于东
- 基于语种关联度课程学习的多语言神经机器翻译被引量:2
- 2022年
- 近年来,使用单一模型实现多语言神经机器翻译的方法受到了广泛关注。然而,现有方法多将所有语种语料直接混合作为训练语料,未能利用多种语言之间关联和相似的信息。此外,模型训练涉及语言种类多、数据量大、整体训练难度大、耗时长等问题。针对以上两个问题,文中提出了一种基于语种关联度的课程学习方法来提高多语言神经机器翻译的整体性能和收敛速度。具体来说,提出了两种度量语种关联度的指标:使用奇异向量典型相关分析对不同语言进行排序以及使用余弦相似度对特定语言中的不同句子进行排序。进一步,文中提出以验证集损失为课程替换标准的课程学习策略,使模型训练由整体训练转化为一系列课程上的训练,降低了训练难度。该方法填补了课程学习策略在多语言神经机器翻译领域的空白。文中在平衡和非平衡的IWSLT多语言数据集和Europarl语料库数据集上进行了实验,结果表明,所提方法优于多语言基线翻译系统,最多可使训练时间缩短64%。
- 于东谢婉莹谷舒豪冯洋
- 关键词:机器翻译多语言课程学习