Index是啥?
书后面的index实际上是inverted index,是用来查找的。
是一个词,出现在document的什么地方,page number。f(Word) returns a set of locations (e.g., pages or documents).
Invert的意思是Turn it upside down.
Inverted index是用来记录一个词出现在哪个文档,以及在哪个文档中出现的频率。
相对的是forward index。Crawler把文档爬下来,然后分析,看这样一个文档,你知道有哪些词出现过,每个词出现的频率。f(locations_eg_pages_or_documents) = set of words and their corresponding frequency.
2 dimensional
word1, word2, word3
D1 y x
D2 z
D3 x
从Document查word list是forward index。从word查文档是inverted index。