刘木林
- 作品数:4 被引量:69H指数:3
- 供职机构:南京大学信息管理学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 一种基于词典的中文分词改进算法被引量:2
- 2016年
- 深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。
- 郑木刚刘木林沈昱明
- 关键词:中文分词词典机制
- 基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例被引量:18
- 2016年
- 为了解决传统关联规则挖掘算法在挖掘效率、算法扩展性等方面无法适应大数据挖掘需求的问题,以经典的关联规则挖掘算法—Apriori算法为例,首先基于Hadoop平台和MapReduce编程模型,实现算法的并行化。在此基础上,基于事务缩减的思想对算法进行优化,进一步提高算法的挖掘效率。搭建Hadoop集群环境,对算法的挖掘结果和挖掘效率进行实验。通过并行挖掘结果验证、串行版与并行版效率对比、挖掘时间与节点数目的变化关系、挖掘时间与数据量的变化关系4组实验,结果表明:文中实现的Apriori算法不仅能够准确挖掘频繁项集,而且比传统串行算法具有更高的挖掘性能和可扩展性。该算法能够更好地适应大数据集的挖掘要求,能够实现从大规模数据集中高效挖掘频繁项集和关联规则。
- 刘木林朱庆华
- 关键词:数据挖掘关联规则HADOOPAPRIORI
- 基于履历信息的国际科技人才特征分析——以近十年诺贝尔物理、化学、生理或医学奖得主为例被引量:19
- 2014年
- 本文通过公开信息源获取2004-2013年诺贝尔物理学、化学、生理学或医学奖得主的个人履历信息,对这72位获奖者的特征进行分析,包括性别结构、国家分布、年龄结构,挖掘对获奖产生重要影响的科研社会关系。结果发现,获奖者以男性居多,女性获奖者多属于生理学或医学领域;获奖者多为美国人,高水平的机构对科技人才的成长有着重要影响;获奖者整体年龄偏大,其中高龄化学奖得主人数最多;科研社会关系对于年轻学者的成长有着非常积极的影响。文章最后为我国培养国际科技人才提出若干建议。
- 鲍雪莹陈贡刘木林
- 关键词:诺贝尔奖得主
- 基于关联数据的数字图书馆移动视觉搜索框架研究被引量:30
- 2016年
- 文章根据软件开发领域流行的MVC架构模式,提出了一个基于关联数据的数字图书馆移动视觉搜索框架(以下简称MVSMVC),该框架由3个模块构成:模型模块(Model)、控制器模块(Controller)和视图模块(View)。同时指出,在数字图书馆环境下,图书情报研究者最擅长也是最关键的工作应该集中在模型模块,因此应当充分发挥其在资源建设方面的优势,建立起互联的视觉资源库,从而为用户提供更优质的搜索服务。
- 刘木林朱庆华赵宇翔
- 关键词:关联数据数字图书馆