倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。
表1:
单词 文档列表
单词1 | 文档1 | 文档2 | 文档3 |
单词2 | 文档2 | 文档4 | 文档5 |
单词3 | 文档3 | 文档5 | 文档6 |
从表1可以看出单词1出现在{文档1,文档2,文档3},单词2出现在{文档2,文档4,文档5},单词3出现在{文档3,文档5,文档6}。
实际使用中还需要给文档添加一个权值,用来表示该词组与文档的相关性。如表2所示。
表2: