inverted index

本文深入探讨了倒排索引的概念,对比了正向索引和倒排索引的区别,详细解释了倒排索引如何记录词汇在文档中的出现位置及频率,为高效检索提供了关键思路。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Index是啥?
书后面的index实际上是inverted index,是用来查找的。
是一个词,出现在document的什么地方,page number。f(Word) returns a set of locations (e.g., pages or documents).
Invert的意思是Turn it upside down.
Inverted index是用来记录一个词出现在哪个文档,以及在哪个文档中出现的频率。

相对的是forward index。Crawler把文档爬下来,然后分析,看这样一个文档,你知道有哪些词出现过,每个词出现的频率。f(locations_eg_pages_or_documents) = set of words and their corresponding frequency.

2 dimensional

 word1, word2, word3

D1 y x
D2 z
D3 x

从Document查word list是forward index。从word查文档是inverted index。

这篇讲的好

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值