李文波
- 作品数:36 被引量:245H指数:7
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划北京市财政局项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于Labeled-LDA模型的文本分类新算法被引量:110
- 2008年
- LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%.
- 李文波孙乐张大鲲
- 关键词:文本分类图模型
- 基于特征空间分解的文本大数据主题挖掘方法和装置
- 本发明涉及一种基于特征空间分解的文本大数据主题挖掘方法和装置。该方法主要包含两个关联的部分:一是基于主题特征的空间分解方法;二是基于多子空间的模型求解并行加速方法。空间分解方法的关键在于利用模型特征对数据样本和主题集合进...
- 李文波孙乐
- 一种音字转换方法
- 本发明公开了一种音字转换方法,属于中文信息处理技术领域。本发明方法包括:切分输入的拼音串,利用词树层将音节转化成汉字,同时调用歧义处理模块对切分后的音节进行歧义判定,若存在歧义,则重新切分;所述歧义包括I型歧义和/或II...
- 张顺昌孙乐李文波
- 基于语义蕴含关系的图片语句匹配模型
- 2017年
- 本文提出一种基于蕴含关系的图片语句匹配模型IRMatch,旨在解决图片语句两种不同模态语义之间的非对等匹配问题.在利用卷积神经网络分别对图片和语句进行语义映射的基础上,IRMatch模型通过引入最大软间隔的学习策略挖掘图片与语句之间的蕴含关系,以强化相关图片语句对在公共语义空间中位置的邻近性,改善图片语句匹配得分的合理性.基于IRMatch模型,本文实现一种图文双向检索方法,并在Flickr8k、Flickr30k以及Microsoft COCO数据集上与基于已有图片语句匹配模型的图文双向检索方法进行了比较.实验结果表明,基于IRMatch模型的检索方法在上述三个数据集上的R@1,R@5,R@10以及Med r均优于基于已有模型的检索方法.
- 柯川李文波汪美玲李孜
- 关键词:卷积神经网络
- 一种机器翻译方法
- 本发明公开了一种机器翻译方法,属于自然语言处理技术领域。本发明的方法为:1)将词对齐的双语句子转换为双语句法树结构;2)在双语句法树的每一层抽取带有结构属性的短语,计算短语翻译概率组成短语翻译表;3)根据短语翻译表,利用...
- 张大鲲孙乐李文波
- 基于小规模尾字特征的中文命名实体识别研究被引量:32
- 2008年
- 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.
- 冯元勇孙乐张大鲲李文波
- 关键词:中文命名实体识别条件随机场自然语言处理
- 一种基于隐含狄利克雷分配模型的并行数据处理方法
- 本发明公开了一种基于隐含狄利克雷分配模型的并行数据处理方法,属于数据挖掘领域,该方法包含了多进程并行处理、多线程并行处理和复合多进程多线程处理三种方案,在这三种方案中都将要处理的数据D<Sub>M</Sub>分成长度为等...
- 李文波孙乐
- 一种符合ISO14651语义的藏文排序实现方法被引量:22
- 2004年
- 本文介绍了一种实现藏文字典序排序的方法 ,它针对藏文“大字丁字符集”编码方案。通过引入有(无 )前加基字符的概念 ,它把待排序的藏字预处理为有 (无 )前加基字符、前加字符、基字 (基字符或者字丁 )、后加字符、再后加字符串后 ,再行比较 ,从而避免拆分字丁。本实现方法符合ISO/IEC14 6 5
- 林河水程伟曹晖李文波吴健孙玉芳
- 关键词:计算机应用中文信息处理藏文字典序
- 一种音字转换方法
- 本发明公开了一种音字转换方法,属于中文信息处理技术领域。本发明方法包括:切分输入的拼音串,利用词树层将音节转化成汉字,同时调用歧义处理模块对切分后的音节进行歧义判定,若存在歧义,则重新切分;所述歧义包括I型歧义和/或II...
- 张顺昌孙乐李文波
- 大规模科技文献深度解析和检索平台构建被引量:5
- 2020年
- [目的/意义]在信息检索、科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用。随着格式化全文数据库的出现,引文分析迈入了4.0时代--全文引文分析阶段。但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用。[方法/过程]在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提出基于Spark平台的实现高效引文内容分析标准化数据集生成方法;3)提出建立引用内容的科技文献检索平台。[结果/结论]引文内容分析标准化数据集的建立将全面提升全文引文分析在我国科技领域中的研究效能,提高科技文献查找精度。
- 吴素研吴江瑞李文波
- 关键词:信息抽取信息检索SPARK