目录:
1、什么是倒排索引
2、posting list的两种压缩算法:
FOR(Frame of Reference)算法
RBM(Roaring Bitmaps)算法
RBM的三种存储:ArraysContainer/BitmapContainer/RunContainer
正文:
一、什么是倒排索引?
倒排索引包含三个内容:
1、倒排表(posting list) 存储搜索数据的id列表
2、词项字典(term dictionary) 存储数据仓库中的词汇
3、词项索引(term index) 标识当前词项是不是被搜索
看图:

二、posting list的存储算法
1)FOR压缩算法
利用斐波那契数列(前两项的和等于第三项)算法,将原始数据压缩为有顺序的一个或多个斐波那契数列。这一个或多个菲波那切数列数列就称之为delta list。
如图:

本文介绍了倒排索引的基本概念,包括倒排表、词项字典和词项索引,并详细探讨了两种主要的postinglist压缩算法:FOR算法和RBM算法。FOR算法通过斐波那契数列实现数据压缩;RBM算法则采用32位二进制数进行数据拆分,并介绍了三种不同的数据结构容器(ArrayContainer, BitmapContainer, RunContainer)及其适用场景。
最低0.47元/天 解锁文章
3228





