
【信息检索】
文章平均质量分 86
xiazdong
ECNU-SEI
展开
-
《信息检索导论》第二章总结
建立倒排记录表之前一、文件的编码一般一个文件都是以字节的方式存储的,如果想要让其可读,就必须要通过正确的编码方式转换成字符;就像Java IO一样,如果没有通过正确的编码方式打开一个文件,会出现乱码。因此在一系列处理步骤之前,知道文档的编码是重要的。一般在文档的meta data部分都会保存编码方式。二、索引粒度索引粒度的选取也是很重要的。因为如果把原创 2012-01-06 14:52:20 · 3489 阅读 · 1 评论 -
《信息检索导论》第四章总结
一、索引构建影响因素索引构建是指一篇文档转换成倒排索引的整个过程;(1)需要考虑的因素有内存大小、CPU时钟频率等;比如如果内存特别大,则能够把全部的文档都放入内存,并很快就能构建成倒排索引;(2)我们需要把尽可能多的内容放在内存;(3)需要考虑寻道时间,因此必须要把连续读取的数据放在连续的块中;将文档集变成term-->docID后,词项-文档ID对的数目是token原创 2012-01-06 15:07:30 · 2979 阅读 · 0 评论 -
《信息检索导论》第六章总结
一、Ranked Retrieval 在前面我们讨论的都是布尔查询,因此得出的结果要么匹配,要么不匹配,当匹配的结果很多时,就会发现我们需要对文档进行排序; 二、参数化索引和域索引 文档除了文本外还有元数据,比如创建时间、文档标题等,因此我们也可以对他进行限制;比如限制查询文档结果必须是2010年发表的;参数化索引(parametric index):某个字段取值存在一原创 2012-01-07 11:03:56 · 3119 阅读 · 0 评论 -
《信息检索导论》第三章总结
一、Hash Table和Search Tree实现dictionary的方法主要有哈希表和搜索树(二叉树、B树、AVL树);实现哈希表的dictionary的优点:(1)查询效率O(1);缺点:(1)哈希冲突。(2)不支持模糊查询。(3)哈希函数需要不断变化以适应需求。实现搜索树的dictionary的优点:(1)支持模糊查询。缺点:(1)查询原创 2012-01-06 15:06:10 · 7911 阅读 · 0 评论 -
《信息检索导论》第五章总结
一、索引压缩概述使用压缩的目的:(1)因为我们想要把尽量多的数据放入内存,因此压缩能够达到这个目的;(2)从磁盘到内存的传输时间会缩短;压缩分类:(1)无损压缩:压缩后的数据能还原全部信息;(2)有损压缩:压缩后会丢失一些信息;如果有损压缩后丢失的信息用户并不关心,则有损压缩也是可以接受的;二、Heaps定律通过整个文档集词条数来估计词项原创 2012-01-06 15:12:21 · 3096 阅读 · 0 评论 -
《信息检索导论》第七章总结
一、打分排序的特性 其实对于打分排序来说,我们最终只需要确定文档的相对顺序即可,因此我们可以简化打分的算法,只需要保持相对顺序不变即可; 二、快速排序及打分方法 我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度,然后需要取出打分最高的前K篇文档,这样做的复杂度是很高的;其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多(不需要计算所有文档的得分),则我们通常原创 2012-01-07 11:05:22 · 2450 阅读 · 0 评论 -
《信息检索导论》第十九章总结
一、Web搜索介绍前面我们都是对传统文档集进行检索,而Web搜索和传统的搜索完全不同,因为Web的文档集数量是不能估计的,并且形式多样;一般Web都是通过B/S架构进行实现的,客户端是浏览器,服务器端是web服务器,通过HTTP进行传输数据;浏览器发出请求并接收服务器的应答,浏览器会自动屏蔽那些不能理解的部分;Web的文档集是海量的,但是如果这些信息不能被搜索到的话,则这些信息是无原创 2012-01-07 11:07:02 · 1798 阅读 · 1 评论 -
《信息检索导论》第二十章总结
一、Web采集介绍 Web采集是从Web中采集大量网页的过程,并且要避免采集重复或无用的页面,采集完的网页需要构建索引,以扩大搜索引擎的索引规模;web采集通常是由多台机器并行采集; web采集的必须功能 (1)Web采集器需要识别采集器陷阱(spider traps),比如当采集器访问到某个web服务器的网页时,此网页会生成无限多个网页被采集器采集,从而使得采集器不能原创 2012-01-07 11:10:05 · 1914 阅读 · 0 评论