ElasticSearch面试题

最新推荐文章于 2024-12-09 09:52:18 发布

原创最新推荐文章于 2024-12-09 09:52:18 发布 · 526 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#ES面试题 #elasticsearch

面试专栏收录该内容

14 篇文章

订阅专栏

本文深入探讨了Elasticsearch的工作原理，包括查询语法、索引文档流程、Master选举机制、分片策略、集群架构及数据读写流程。此外，还介绍了Elasticsearch如何处理大数据量的聚合、删除和更新原理，以及底层Lucene倒排索引和Translog机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

什么是ES？

es是基于lucene的搜索引擎，它提供了具有Http Web界面和JSON文档的分布式的全文搜索引擎。

ES中查询语法

es主要使用两种类型的查询语法：

Lucene查询语法
基于json的DSL查询语法

详细描述一下ElasticSearch索引文档的过程

协调节点默认使用文档ID参与计算，以便为路由提供合适的分片。

当分片所在的节点接收到来自协调节点的请求后，会将请求写入Memory Buffer，然后定时写入到Filesystem Cache。这个从Memory Buffer到Filesystem Cache的过程就叫做refresh。

在某些情况下，存在Memory Buffer和Filesystem Cache的数据可能会丢失，ES是通过translog的机制来保证数据的可靠性的。其实现原理是接收到请求后，同时也会写入到translog中，当Filesystem cache的数据写入到磁盘中时，才会清除掉，这个过程叫做flush。

在flush过程中，内存中的缓存将会清除，内存被写入一个新段，段的fsync将创建一个新的提交点，并将内容刷入磁盘，旧的translog将被删除，并开始一个新的translog。

flush触发的时机是定时触发（默认30分钟）或者translog变得太大（默认为512M）时。

ElasticSearch是如何实现Master选举的？

ES选主是通过ZenDiscovery负责的，主要包含Ping和Unicast来实现

对于所有可以成为master的节点，根据nodeId字段排序，每次选举每个节点都把自己所知道的节点拍一次序，然后选出第一个节点，暂且作为master节点

如果对某个节点的投票数达到一定的值（可以成为master节点数n/2+1）并且该节点自己也选举自己，那这个节点就是master。否则重新选举一直到满足上述条件。

master节点的职责主要包括：集群、节点和索引的管理

获取分片id的算法

分片id借助路由算法获取。路由算法就是根据路由和文档id计算目标id的过程

shard = hash(document_id) % (number_of_primary_shards)

ES中的集群、节点、索引、文档、类型是什么？

集群是一个或多个节点的集合，他们共同保存数据，并提供跨所有节点的联合索引和搜索功能。群集由唯一名称标识，默认情况下为“elasticsearch”。此名称很重要，因为如果节点设置为按名称加入群集，则该节点只能是群集的一部分。

节点时属于集群一部分的单个服务器。他存储数据并参与集群的索引和搜索功能

索引：就像关系数据库中的数据库。他有一个定义多种类型的映射。索引是逻辑名称空间，映射到一个或多个主分片，并且可以拥有一个或多个副本分片

分片：索引通常被分割成分布在多个节点上的分片

副本：副本是分片的副本，

文档：类似数据库中的一行

类型是索引的逻辑分区/类别

段segment：一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以合并。段是索引数据存储的单元‘

字段field：一个文档可以包含多个列，是lucene数据索引的最小定义单位

Term是搜索语法的最小单位，复杂的搜索语法会分解成一个Term查询，他表示文档的一个词语，Term由两部分组成：它表示的词语和这个词语所出现的Field。

ES写数据流程

客户端选择一个node发送请求过去，这个node就是coordinating node（协调节点）
coordinating node对document进行路由，将请求转发到对应的node（由primary shard）
实际的node上的primary shard处理请求，然后将数据同步到replica node
coordinating node如果发现primary node和所有的replica node都搞定之后，就返回响应结果给客户端

ES读数据流程

可以通过doc id来查询，会根据doc id进行hash，判断出来当时把doc id分配到了哪个shard上去，从那个shard去查询。

客户端发送请求到任意一个node，称为coordinating node
coordinating node对doc id进行hash路由，将请求发送到对应的节点，此时会使用round-robin随机轮询算法，在primary shard以及所有的replica中随机选取一个，让读请求负载均衡
接收请求的node返回document给coordinating node
coordinating node返回document给客户端

写请求是写入primary shard，然后同步给所有的replica shard；读请求可以从primary shard或replica shard读取，采用的是随机轮询算法。