背景
在关系型数据库中,索引是检索数据的最有效率方式,但是在海量的数据中,需要实时检索数据的时候,关系型数据库的索引方式在性能方面并不能满足我们的检索要求。打个比方:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至百亿级的网页数量 ,面对如此海量数据 ,使得数据库系统很难有效的管理。于是在很多搜索引擎中出现了一种相对于我们传统的正序索引相反的一种索引:倒排索引或反序索引,官方的名称是:inverted index 。
其实这个名字是典型的渣翻译的例子之一。
英文原名Inverted index,大概因为 Invert 有颠倒的意思,就被翻译成了倒排。
但是倒排这个名称很容易让人理解为从A-Z颠倒成Z-A。
个人认为翻译成"反向索引"可能比较合适。
一个未经处理的数据库中,一般是以文档ID作为索引,以文档内容作为记录。
而Inverted index 指的是将单词或记录作为索引,将文档ID作为记录,这样便可以方便地通过单词或记录查找到其所在的文档。
倒排索引
1)基本概念
概括《这就是搜索引擎-核心技术详解》总结出来就是:索引表包括了每条记录的属性值和属性值记录的地址,检索的时候,通过属性值来确定该条记录的位置,而不是像传统索引那样通过属性来确定属性值,通俗的说就是不在是通过key寻找value,而是通过value寻找key。也许这么阐述还是有点抽象,那么我们先了解倒排索引有关的几个概念,然后一点点深入。
文档
一般搜索引擎的处理对象是互联网网页,而文档这个概念更要宽泛一些,代表以文本形式存在的存储对象。相比于网页来说,涵盖更多形式,比如Word、PDF、html、XML等不同格式的文件都可以称为文档,再比如一封邮件、一条短信、一条微博也可以称为文档。
文档集合
顾名思义,一组或多个文档构成的集合,比如海量的互联网网页或者大量的电子邮件,都是文档集合的具体例子。
文档编号
在搜索引擎内部,会为文档集合內每个文档赋予一个唯一的内部编号,以此编号作为这个文档的唯一标识,这样方便内部