
搜索引擎
nearvoid
这个作者很懒,什么都没留下…
展开
-
信息检索之索引压缩
1、主要内容: 信息检索系统中两个重要的数据结构:词项词典和全体倒排记录表,为了构建高效的IR系统,需要对这两个数据结构进行压缩。进行压缩有两个隐含的优点:①、能增加高速缓存(cache)技术的利用率:将频繁使用的查询此项t的倒排记录表采用压缩技术放到高速缓存中,当查询词项t的时候,不再需要进行磁盘操作,而只需要将其倒排记录表在内存中解压缩即可;②、压缩能够加快数据从磁盘到内存的传输速度原创 2013-12-12 18:38:28 · 3183 阅读 · 0 评论 -
信息检索之词项词典及倒排记录表
1、主要内容 ①文档的基本组成单位及文档中确定这些单位所含字符序列的方法; ②词条化(把原始的字符流分成一个个的词条)和语言学预处理(建立词条的等价类); ③跳表倒排记录表数据结构(支持快速查询); ④适合于短语查询和邻近查询的索引结构(在布尔操作的检索系统和web搜索系统中非常普遍)。2、字符序列的生成: ①、编码方式:Unicode原创 2013-12-11 20:06:45 · 2011 阅读 · 0 评论 -
信息检索之词典及容错式检索
1、主要内容:对查询中存在拼写错误或存在不同拼写形式具有鲁棒性的拼写矫正技术 ①、支持词典快速查找的多个数据结构; ②、通配符查询; ③、拼写上存在错误的查询,自动校正技术(针对单个词的独立矫正;针对整个查询串的整体矫正技术); ④、查询词发音相似的查询;2、词典搜索的数据结构:确定每个查询此项是否在词汇表中 可参见:1、MySQL索引背后的数据结构原创 2013-12-11 20:07:55 · 1390 阅读 · 0 评论 -
信息检索之布尔检索
1、倒排索引的两部分图 1-32、构建倒排索引的过程 ①收集需要建立索引的文档; ②将每篇文档转换成一个个词条的列表,这个过程成为词条化;(第二章) ③进行语言学处理,产生归一化的词条来作为词项;(第三章) ④对所有文档按照其中出现的词项来建立倒排索引,索引中包括一部词典(存于内存)和一个全体倒排索引表(存于磁盘)。(第四章)原创 2013-12-11 20:04:27 · 1884 阅读 · 0 评论 -
信息检索之文档评分、词项权重计算及向量空间模型
1、主要内容: 在文档规模很大的情况下,满足布尔查询的结果文档数量可能非常多,往往会大大超过用户能够浏览的文档的数目。需要对搜索出来的文档进行评分和排序。 ①、参数化索引及域索引的概念;目的:1、可以通过元数据(文档的作者、标题、出版日期等)来对文档进行索引和检索;2、上述索引能够提供一个简单的文档评分; ②、词项字在文档中的权重的概念,并通过期出现的统计信息进行权重原创 2013-12-12 16:56:41 · 4960 阅读 · 0 评论