您的位置: 专家智库 > >

单栋栋

作品数:5 被引量:7H指数:1
供职机构:北京大学信息科学技术学院网络与信息系统研究所更多>>
发文基金:国家自然科学基金国家科技重大专项国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 3篇期刊文章
  • 1篇学位论文
  • 1篇专利

领域

  • 3篇自动化与计算...
  • 1篇文化科学

主题

  • 4篇索引
  • 3篇倒排索引
  • 3篇引擎
  • 3篇搜索
  • 3篇搜索引擎
  • 2篇信息检索
  • 2篇剪枝
  • 2篇剪枝方法
  • 1篇索引压缩
  • 1篇体系结构
  • 1篇重要度
  • 1篇网络
  • 1篇网络信息
  • 1篇网页
  • 1篇网页检索
  • 1篇网页内容
  • 1篇文本相似度
  • 1篇文本相似度计...
  • 1篇相似度
  • 1篇相似度计算

机构

  • 5篇北京大学
  • 1篇哈尔滨医科大...

作者

  • 5篇单栋栋
  • 3篇闫宏飞
  • 2篇张旭东
  • 1篇李晓明
  • 1篇李晓明
  • 1篇刘亚宁
  • 1篇孙志明
  • 1篇赵东生

传媒

  • 1篇计算机工程
  • 1篇华南理工大学...
  • 1篇情报学报

年份

  • 1篇2014
  • 1篇2013
  • 1篇2012
  • 2篇2011
5 条 记 录,以下是 1-5
排序方式:
基于文档重要度的静态索引剪枝方法被引量:1
2011年
针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的索引大小是原始大小的13%时,P@10、P@20值能达到甚至超过使用完整索引时的结果;在相同的剪枝幅度下,P@10、P@20和MAP都明显好于以往的剪枝方法.
李晓明单栋栋
关键词:搜索引擎倒排索引
基于网页质量的静态索引剪枝方法
本发明公开了一种基于网页质量的静态索引剪枝方法,涉及互联网搜索引擎技术领域,包括:S1:计算待剪枝网页的重要度,所述重要度包括:网页权威性、网页内容的有用性或用户关注度;S2:根据所述重要度计算所述待剪枝网页的信息保留比...
闫宏飞单栋栋张旭东李晓明
文献传递
搜索引擎中索引剪枝的研究
搜索引擎作为人们获取网络信息的主要入口,正在被越来越多的人使用。不断增长的网页数量和查询请求量使得搜索引擎面临着巨大的性能挑战。通常,搜索引擎每秒需要在数百亿的网页数据上处理成千上万的查询。因此,如何高效地处理查询一直是...
单栋栋
关键词:搜索引擎网络信息
基于64位体系结构的倒排索引压缩算法被引量:5
2014年
在64位体系结构的CPU中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构——倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法Simple不适用于64位系统的问题,对其进行改进,并提出3种基于64位的字对齐压缩算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3种算法都采用多种压缩模式,并对每个模式进行压缩空间的优化。在64位机器上GOV2和ClueWeb09B数据集的倒排索引实验结果表明,与传统的基于32位字对齐的压缩算法相比,3种基于64位字对齐的算法在解压速度方面最多提高14.5%,在压缩率方面最多提高2.5%。
张旭东孙志明刘亚宁单栋栋闫宏飞
关键词:倒排索引索引压缩搜索引擎信息检索
基于查询词出现的相关度改进
2011年
对信息检索系统返回结果相关度的改进,一直是信息检索领域重要的研究内容。本文首先引入查询词出现信息的概念,随后给出了查询词出现权重的形式化表示,进而将其与BM25模型结合起来。对于查询词出现权重的计算,本文采用了两种方法,即线性加权方法和因数加权方法。我们通过在GOV2数据集上的实验发现,无论哪种方法,通过加入查询词出现权重,都可以有效的改进检索结果的相关度。实验显示,对于TREC 2005的查询,MAP值的改进达到15.78%,p@10的改进达到3468%。本文所描述的方法已经应用到TREC 2009的WebTrack中。
赵东生单栋栋闫宏飞
关键词:信息检索
共1页<1>
聚类工具0