1、倒排索引(反向索引)
一种索引方法,用来存储在全文检索下某个单词在一个/组文档中的存储位置。
常规索引,文档->关键词,费时,得把一个文档全部遍历一遍
倒排索引,关键词->文档,全文搜索过程如下:
1、构建单词集合:
先对文档进行分词,
然后筛选过滤,
得到单词集合,并编号id
2、构建文档集合:文档id
3、建立单词、文档矩阵, 得出倒排索引,如:
乔布斯:{(文档1,<位置3,位置11>),2次}, {(文档2,<位置7>),1},{(文档3,<位置9>),1}
苹果:{(文档1,<位置16>),1次}, {(文档5,<1>),1次}
本文介绍了倒排索引的基本概念及其构建过程。首先通过分词和筛选生成单词集合,然后为每篇文档分配唯一ID,最后建立从单词到文档的映射关系。此方法适用于全文检索场景。
936

被折叠的 条评论
为什么被折叠?



