Java-常见面试题收集(十五)

最新推荐文章于 2024-10-08 11:18:12 发布

泰勒疯狂展开

最新推荐文章于 2024-10-08 11:18:12 发布

阅读量601

点赞数 15

分类专栏： Java常见面试题文章标签： java 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhlyxx/article/details/139120859

版权

二十四 Elasticsearch

1 Elasticsearch 的倒排索引

传统的检索方式是通过文章，逐个遍历找到对应关键词的位置。倒排索引，是通过分词策略，形成了词和文章的映射关系表，也称倒排表，这种词典 + 映射表即为倒排索引。

其中词典中存储词元，倒排表中存储该词元在哪些文中出现的位置。有了倒排索引，就能实现 O(1) 时间复杂度的效率检索文章了，极大的提高了检索效率。

倒排索引的底层实现是基于：FST（Finite State Transducer）数据结构。Lucene 从 4+ 版本后开始大量使用的数据结构是 FST。FST 有两个优点： 1）空间占用小。通过对词典中单词前缀和后缀的重复利用，压缩了存储空间； 2）查询速度快。O(len(str)) 的查询时间复杂度。

2 字典树介绍

Elasticsearch中的字典树（Trie Tree）或称为前缀树（Prefix Tree）是一种用于处理字符串数据的高效数据结构。特别是在其倒排索引的构建中，字典树发挥了重要作用。其核心思想是空间换时间，利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。它有 3 个基本性质：

① 根节点不包含字符，除根节点外每一个节点都只包含一个字符。
② 从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。
③ 每个节点的所有子节点包含的字符都不相同。或者用数组来模拟动态。而空间的花费，不会超过单词数×单词长度。

对于中文的字典树，每个节点的子节点用一个哈希表存储，这样就不用浪费太大的空间，而且查询速度上可以保留哈希的复杂度 O(1)，实现：对每个结点开一个字母集大小的数组，每个结点挂一个链表，使用左儿子右兄弟表示法记录这棵树

3 Elasticsearch 索引文档过程

索引文档指文档写入 ES，创建索引的过程。
第一步：客户端向集群某节点写入数据，发送请求。（如果没有指定路由/协调节点，请求的节点扮演协调节点的角色。）

第二步：协调节点接受到请求后，默认使用文档 ID 参与计算（也支持通过routing），得到该文档属于哪个分片。随后请求会被转到另外的节点。复制

// 路由算法：根据文档 id 或路由计算目标的分片 id
shard = hash(document_id) %</

最低0.47元/天解锁文章

泰勒疯狂展开

博客等级

码龄4年

159
原创

3028
点赞

1745
收藏

2205
粉丝

关注

私信

热门文章

分类专栏

最新评论

IT专业入门，高考假期预习指南
lvy-: 完了学了三个月门都没入
Java研学-SpringBoot(一)
全栈小5: 博主这篇文章内容很不错，结构清晰，思维活跃，具有条理性可以借鉴并学习和落地，内容丰富图文详细，认真看完收获很大，学习了，期待博主更多的好文章。支持【Java研学-SpringBoot(一)，博主这篇文章，值得一看】
Java研学-封装
优快云-Ada助手: 恭喜您写了第20篇博客，标题为“Java研学-封装”！您的持续创作精神让我非常钦佩。在您的博客中，我了解到了关于封装的重要性和实际应用，收获颇丰。接下来，我希望您可以考虑写一些关于Java中其他重要概念的文章，比如继承或多态等。这样不仅可以帮助更多的读者加深对Java的理解，也能够让您自己在不断探索和学习的过程中获益更多。期待您的下一篇精彩文章！加油！

大家在看

8岁200度孩子用护眼屏有用吗？该怎么控制度数？ 244

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

泰勒疯狂展开 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。