大数据面试题之ElasticSearch(1)

最新推荐文章于 2024-07-10 23:36:01 发布

小的~~

最新推荐文章于 2024-07-10 23:36:01 发布

阅读量1.3k

点赞数 37

分类专栏：大数据文章标签：大数据

本文链接：https://blog.youkuaiyun.com/k7gxn56/article/details/140335227

版权

ElasticSearch如何实现master选举

ElasticSearch的搜索过程说下

ElasticSearch如何在并发情况下保证读写一

ElasticSearch的常用分词器有哪些,有什么优缺点

ElasticSearch介绍

Elasticsearch 是一个开源的、分布式的搜索引擎和分析引擎，建立在Apache Lucene库之上。它被广泛用于全文检索、结构化搜索、数据分析以及实时应用中。Elasticsearch 的核心特性包括：

分布式架构：Elasticsearch 设计为分布式系统，可以轻松地在多台服务器上扩展，处理大量数据并支持高并发请求。它自动管理数据的分片(sharding)和复制(replication)，确保数据的可靠性和搜索性能。
全文搜索：利用倒排索引技术，Elasticsearch 提供了快速且高效的全文本搜索能力，支持复杂的查询语句，包括模糊匹配、短语匹配、同义词处理等。
实时分析：通过实时索引和近实时搜索功能，Elasticsearch 能够迅速地对新数据进行索引，并几乎立即可用作搜索和分析，非常适合实时日志分析和监控场景。
RESTful API：所有的操作都可以通过其直观的RESTful API进行，这意味着你可以使用任何支持HTTP协议的语言来与之交互，非常便于集成和开发。
数据灵活性：Elasticsearch 支持JSON文档作为数据存储的基本单元，这种灵活性使得它能够处理半结构化和非结构化的数据，适合现代应用中多样化的数据类型。
聚合与分析：强大的聚合框架允许用户执行复杂的数据分析操作，如分桶(bucketing)、度量(metric)计算、管道聚合(pipeline aggregations)等，这对于生成报表和进行数据洞察非常有用。
安全性与监控：Elastic Stack（原ELK Stack，包含Elasticsearch、Logstash、Kibana）提供了X-Pack插件，增加了安全认证、授权、监控和报警等功能，确保系统的安全性和稳定性。
Kibana集成：Elasticsearch 经常与Kibana一起使用，Kibana是一个可视化工具，可以帮助用户创建图表、仪表盘，进行数据探索和可视化分析，使得数据分析结果更加直观易懂。

综上所述，Elasticsearch 不仅是一个高性能的搜索引擎，也是一个强大的数据分析平台，适用于从简单的网站搜索到复杂的企业级应用的各种场景。

ElasticSearch架构

Elasticsearch 的架构设计围绕着高度可扩展性和容错性展开，主要由以下几个核心组件构成：

节点(Node)：Elasticsearch 集群中的每一个运行实例称为一个节点(Node)。每个节点都存储数据、参与索引和搜索操作。节点之间通过网络通信，协同工作以实现集群功能。
集群(Cluster)：一群节点的集合构成了一个Elasticsearch集群(Cluster)。集群由一个唯一的名称标识，默认为"elasticsearch"。所有节点必须属于同一个集群才能共享数据和负载均衡。
主节点(Master Node)：在一个集群中，有一个或多个节点会被选举为主节点(Master Node)。主节点不直接存储数据，而是负责集群的管理和协调任务，比如新建或删除索引、跟踪哪些节点是集群的一部分、管理分片分配等。如果主节点失败，另一个节点会被选举为新的主节点。
数据节点(Data Node)：负责存储数据和执行数据相关操作（如索引、搜索）的节点称为数据节点(Data Node)。在大型集群中，数据节点通常只负责数据处理，以优化资源使用。
索引(Index)：索引是具有相似特征的文档集合。类似于传统数据库中的数据库或表的概念。每个索引都有一个唯一的名字，并且可以被分成多个分片(Shard)来分散存储和处理。
分片(Shard)：索引可以被分割成多个分片，每个分片是一个独立的Lucene索引。分片有主分片(Primary Shard)和副本分片(Replica Shard)之分。主分片是原始数据的容器，而副本分片则是主分片的复制，用于提高数据的可用性和搜索性能。
副本(Replication)：为了提高数据可靠性，Elasticsearch 允许为索引的每个主分片创建多个副本。这样即使某个节点或分片发生故障，数据也不会丢失，同时还能提高搜索请求的处理速度。
客户端(Client)：客户端是应用程序与Elasticsearch集群交互的接口，它发送请求到集群并接收响应。客户端可以是Java客户端、HTTP REST API客户端或者是Elasticsearch提供的各种语言的客户端库。
发现模块(Discovery Module)：负责节点之间的发现和选举主节点。它依赖于如Zen Discovery这样的模块来实现节点间的通信和集群状态的维护。

整个Elasticsearch架构设计得非常灵活，可以根据需要动态地添加或移除节点，调整索引的分片数量，以及设置副本策略，从而轻松应对数据量的增长和查询负载的变化。

ElasticSearch深度分页

在 Elasticsearch 中，深度分页（即请求结果集中的大量偏移量，如从第10000条记录开始获取结果）可能会导致性能问题，尤其是当涉及大量数据时。这是因为Elasticsearch为了获取指定偏移量后的结果，需要遍历跳过的所有文档，这会消耗大量的CPU资源和内存。
为了解决这个问题，Elasticsearch 提供了几种更高效的替代方案来实现深度分页：

Search After：这是一种基于排序字段的分页方法。首先执行一个搜索请求，获取到第一批结果，并记住最后一个文档的排序值。然后，在下一次请求中，使用search_after参数，传入上一次请求中最后一个文档的排序值作为搜索起点。这种方法避免了需要指定from和size带来的性能开销，特别适用于连续翻页的场景。
Scroll：Scroll API 适合一次性获取大量数据，特别是在数据视图不会频繁变化的情况下。启动一个 Scroll 会话后，Elasticsearch 会保持对当前视图的快照，允许你通过多次滚动请求来迭代所有匹配的结果。每个Scroll请求都会返回一个_scroll_id_，以及一批结果，直到没有更多结果为止。需要注意的是，Scroll会话是有生命周期的，过期后会失效。
Pit(Point in Time) API：这是Elasticsearch 7.0引入的一个新特性，类似于Scroll API，但提供了更好的性能和灵活性。PIT API允许你打开一个索引的快照视图，然后在这个快照上执行多次搜索

最低0.47元/天解锁文章