Lucene 倒排索引原理

去哪儿网技术沙龙

于 2021-02-04 11:25:58 发布

阅读量1.3k

点赞数 4

分类专栏：后端技术文章标签： lucene

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45526640/article/details/113629201

版权

本文介绍了Lucene倒排索引的基本原理和实现，包括什么是倒排索引、倒排索引结构、Lucene中Posting List和Term Dictionary的实现细节，以及数值类型处理的BKDTree。倒排索引通过将单词作为索引，文档ID作为记录，提高了全文检索的效率和效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 前言

Lucene 作为 Apache 开源的一款搜索工具，一直以来是实现搜索功能的神兵利器，现今火热的 Solr 和 Elasticsearch 均基于该工具包进行开发，我们搜索召回组这边也是基于 Lucene 实现了一套索引构建机制，用于酒店搜索、门票搜索、大搜等搜索相关业务。

而 Lucene 之所以能在搜索中发挥至关重要的作用正是因为倒排索引。

因此，本文将介绍一下倒排索引的概念以及倒排索引在 Lucene 中的实现。

2 基本原理

2.1 什么是倒排索引

搜索的核心需求是全文检索，全文检索简单来说就是要在大量文档中找到包含某个单词出现的位置，在传统关系型数据库中，数据检索只能通过 like 来实现，例如需要在酒店数据中查询名称包含公寓的酒店，需要通过如下 sql 实现：

select * from hotel_table where hotel_name like '%公寓%';

这种实现方式实际会存在很多问题：

无法使用数据库索引，需要全表扫描，性能差
搜索效果差，只能首尾位模糊匹配，无法实现复杂的搜索需求
无法得到文档与搜索条件的相关性

搜索的核心目标实际上是保证搜索的效果和性能，为了高效的实现全文检索，我们可以通过倒排索引来解决。

倒排索引是区别于正排索引的概念：

正排索引：是以文档对象的唯一 ID 作为索引，以文档内容作为记录的结构。
倒排索引：Inverted index，指的是将文档内容中的单词作为索引，将包含该词的文档 ID 作为记录的结构。

在这里插入图片描述
下面通过一个例子来说明下倒排索引的生成过程。
假设目前有以下两个文档内容：

苏州街维亚大厦

桔子酒店苏州街店

其处理步骤如下：

1、正排索引给每个文档进行编号，作为其唯一的标识。
在这里插入图片描述
2、生成倒排索引：

a.首先要对字段的内容进行分词，分词就是将一段连续的文本按照语义拆分为多个单词，这里两个文档包含的关键词有：苏州街、维亚大厦…
b.然后按照单词来作为索引，对应的文档 id 建立一个链表，就能构成上述的倒排索引结构。

在这里插入图片描述
有了倒排索引，能快速、灵活地实现各类搜索需求。整个搜索过程中我们不需要做任何文本的模糊匹配。

例如，如果需要在上述两个文档中查询 苏州街桔子 ，可以通过分词后通过 苏州街 查到 1、2，通过桔子查到 2，然后再进行取交取并等操作得到最终结果。

在这里插入图片描述

2.2 倒排索引的结构

根据倒排索引的概念，我们可以用一个 Map来简单描述这个结构。这个 Map 的 Key 的即是分词后的单词，这里的单词称为 Term，这一系列的 Term 组成了倒排索引的第一个部分 —— Term Dictionary (索引表，可简称为 Dictionary)。

倒排索

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。