ElasticSearch | 倒排索引

本文对比正排索引与倒排索引,深入解析倒排索引的核心组成,包括单词词典、倒排列表和倒排索引项,以及它们在搜索引擎如ElasticSearch中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正排索引 vs 倒排索引

  • 正排索引 - 文档 ID 到文档内容的索引;
  • 倒排索引 - 单词到文档 ID 的索引;

倒排索引的核心组成

单词词典 | Term Dictionary
  • 记录所有文档的单词;
  • 记录单词 -> 倒排列表的关联映射;
  • 单词词典一般比较大,可以通过 B+ 树或哈希链法实现,以满足高性能的插入和查询;
倒排列表 | Posting List
  • 记录了单词对应的文档集合,由倒排索引项组成;
倒排索引项 | Posting
  • 文档 ID;
  • 词频 TF - 该单词在文档中出现的次数,用于相关性评分;
  • 位置 | Position - 单词在文档中分词的位置,用于语句搜索(Phase Query);
  • 偏移 | Offset - 记录单词的开始结束位置,实现高亮显示;

举个栗子 | 单词“ElasticSearch”的倒排列表

  • 单词“ElasticSearch”对应的倒排列表:


    ElasticSearch 的倒排索引.png

ElasticSearch 的倒排索引

  • ElasticSearch 的 JSON 文档中的每个字段,都有自己的倒排索引;
  • 可以指定某些字段不做索引
    • 优点:节省存储空间;
    • 缺点:字段无法被搜索;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值