概要
本篇主要讲解倒排索引的基本原理以及ES常用的几种分词器介绍。
倒排索引的建立过程
倒排索引是搜索引擎中常见的索引方法,用来存储在全文搜索下某个单词在一个文档中存储位置的映射。通过倒排索引,我们输入一个关键词,可以非常快地获取包含这个关键词的文档列表。
我们先看英文的,假设我们有两个文档:
- I have a friend who loves smile
- love me, I love you
为了建立倒排索引,我们先按最简单的用空格把每个单词分开,可以得到如下结果:*表示该列文档中有这个词条,为空表示没有该词条
| Term |
doc1 | doc2 |
|---|---|---|
| I | * |
* |
| have | * |
|
| a | * |
|
| friend | * |
|
| who | * |
|
| loves | * |
|
| smile | * |
|
| love | * | |
| me |

本文详细介绍了Elasticsearch中的倒排索引原理,以及在建立索引过程中如何进行分词处理以提升搜索效果。讨论了分词器的重要性和常见类型,包括内置的如标准分词器、简单分词器、语言分词器,以及外部分词器如IK中文分词器,强调了选择合适分词器对提升召回率和减少噪音的关键作用。
最低0.47元/天 解锁文章
1657

被折叠的 条评论
为什么被折叠?



