目录
单词-文档索引
横向看,哪些文档有这个词汇,纵向看,这个文档有哪些词汇

搜索引擎的实质就是实现这样的一种概念模型,比如倒排序,签名文件,后缀树,但是倒排序据实验表明是最优的.
倒排序基本概念
前置概念:
文档:HTML+WORD+PDF+XML等都可以叫做文档
文档编号:搜索引擎内部会给每个文档设置一个唯一的文档编号
单词编号:搜索引擎内部会给每一个单词设置一个唯一的单词编号
单词词典:文档集合中出现过的单词构成的字符串集合,每条索引项记载单词本身的一些信息以及指向倒排列表的指针.
倒排列表:列表记载出现过这个单词的所有文档的文档列表及其单词在该文档的位置信息,也就是横着看一条数据.
倒排文件:所有单词的倒排列表往往顺序的存储在磁盘的某个文件里面,这个文件就被称为倒排文件,倒排文件是存储倒排索引的物理文件

倒排序实例
根据这个文档内容创建倒排序内容

最简单的倒排索引:

倒排列表只显示被包含的文档编号.

升级版:单词被包含的文档的编号及其出现的次数

实用版:保存单词被包含的文档的编号,出现的次数,以及出现的位置在整个文档字符串切割出来的词语的下标.
倒排索引是搜索引擎实现高效搜索的关键技术。它包括文档编号、单词编号、单词词典、倒排列表和倒排文件等核心概念。倒排列表记录了每个单词在哪些文档中出现,以及出现的次数和位置信息。这种结构使得快速查找包含特定单词的文档成为可能。
473

被折叠的 条评论
为什么被折叠?



