ES面试问题和入门资料

最新推荐文章于 2025-11-14 14:49:38 发布

原创

最新推荐文章于 2025-11-14 14:49:38 发布 · 3.8k 阅读

CC 4.0 BY-SA版权

文章标签：

本文深入探讨了ES（Elasticsearch）的核心概念、操作原理、集群架构和应用场景，包括全文检索、倒排索引、数据写入与查询流程、Lucene基础、集群节点角色、数据分片与副本策略等。通过对ES面试问题的解析，帮助读者掌握ES的基础知识和进阶技巧。

Before: 之前用什么？数据量少的时候用mysql的like %小张%

表越来越大，内容越来越多。分库分表。

Then：出现了 Lucene，全文检索工具。但是lucene对外暴露出的可用接口对于开发人员来说，操作是非常的复杂，而且没有效率的；于是在lucene的基础上进一步的封装

End: Es框架出现了，同样是以lucene为基础，并且吸收了前两代的教训而开发出的分布式多用户能力的全文搜索引擎

index：索引， 3中意思

type: 类似于 table。从6.0.0版本后一个index只能有一个type

document： index里面的一条记录称为文档，类似mysql中的行

field

mapping

cluster：集群

节点node： 5中节点类型

分片shard和副本replicas

索引的增、删

文档的增、删、改、查

参考： https://blog.youkuaiyun.com/ZGL_cyy/article/details/120804713

写入过程：

读数据过程：

可以通过 doc id 来查询，会根据 doc id 进行 hash，判断出来当时把 doc id 分配到了哪个 shard 上面去，从那个 shard 去查询。

客户端发送请求到任意一个 node，成为 coordinate node。
coordinate node 对 doc id 进行哈希路由，将请求转发到对应的 node，此时会使用 round-robin 随机轮询算法 ，在 primary shard 以及其所有 replica 中随机选择一个，让读请求负载均衡。
接收请求的 node 返回 document 给 coordinate node。
coordinate node 返回 document 给客户端。

搜索数据过程:

es 最强大的是做全文检索，根据关键词搜索

客户端发送请求到一个 coordinate node。
协调节点将搜索请求转发到所有的 shard 对应的 primary shard 或 replica shard，都可以。
query phase：每个 shard 将自己的搜索结果（其实就是一些 doc id）返回给协调节点，由协调节点进行数据的合并、排序、分页等操作，产出最终结果。
fetch phase：接着由协调节点根据 doc id 去各个节点上拉取实际 的 document 数据，最终返回给客户端。