【面试】 Elasticsearch相关的五个面试题，你看看会不会？

最新推荐文章于 2025-09-03 00:13:01 发布

原创最新推荐文章于 2025-09-03 00:13:01 发布 · 置顶 · 1.2k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#面试 #elasticsearch #jenkins

java常见的面试题和回答思路专栏收录该内容

28 篇文章

订阅专栏

文章目录

Elasticsearch 是一个分布式搜索和分析引擎，核心基于 Lucene 库，广泛用于日志分析、全文搜索等场景。以下是我的详细解答。

1. 解释 Elasticsearch 中的索引(Index)、文档(Document) 和字段 (Field) 是什么？

在 Elasticsearch 中，索引(Index)、文档(Document) 和字段 (Field) 是数据模型的核心组件，它们共同定义了数据的存储和检索方式。索引类似于关系数据库中的“数据库”，文档类似于“行”，而字段类似于“列”。但 Elasticsearch 是面向文档的 NoSQL 数据库，强调灵活性和高性能搜索。

索引(Index)：索引是文档的集合，用于存储和检索数据。每个索引有一个唯一名称，并可以配置分片（Shard）和副本（Replica）以实现分布式存储和高可用性。索引在逻辑上隔离不同类型的数据。
文档(Document)：文档是索引中的基本数据单元，以 JSON 格式存储。每个文档代表一个实体（如一个用户、一篇日志），并包含多个字段。文档是唯一可被搜索的对象，每个文档有一个唯一的 ID（可以是自动生成或自定义）。
字段(Field)：字段是文档中的键值对，用于存储具体数据。例如，一个用户文档可能有 name、age 等字段。字段支持多种数据类型（如 text、keyword、integer），并可通过映射（Mapping）定义其属性（如是否可搜索、是否分词）。

举例说明：
假设我们有一个电商系统，需要存储用户信息。创建一个索引 user_index，添加一个文档代表单个用户：

索引创建：使用 Elasticsearch 的 REST API 创建索引 user_index。
文档添加：添加一个 JSON 文档，ID 为 1，包含字段 name（类型为 text）、age（类型为 integer）和 email（类型为 keyword）。

实际操作示例（使用 cURL 命令）：

# 创建索引（省略映射，Elasticsearch 会自动推断类型）
curl -X PUT "localhost:9200/user_index" -H 'Content-Type: application/json' -d'
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 1
  }
}'

# 添加文档
curl -X POST "localhost:9200/user_index/_doc/1" -H 'Content-Type: application/json' -d'
{
  "name": "张三",
  "age": 30,
  "email": "zhangsan@example.com"
}'

在这个例子中：

user_index 是索引。
JSON 对象 {"name": "张三", "age": 30, ...} 是文档。
name、age、email 是字段。字段 name 是 text 类型，可被全文搜索；email 是 keyword 类型，适合精确匹配。

关键点：索引是逻辑容器，文档是数据实体，字段是数据属性。Elasticsearch 的灵活性允许动态添加字段，但最佳实践是通过映射明确定义字段类型以优化性能。

2. 什么是 Elasticsearch 的倒排索引 (Inverted Index)? 它如何工作?

倒排索引 (Inverted Index) 是 Elasticsearch 实现高效全文搜索的核心数据结构，它不同于关系数据库的正排索引（如 B-tree）。
倒排索引将文档中的内容（如单词）映射到包含该内容的文档列表，从而快速定位相关文档。其工作原理基于“词项-文档”的映射，显著提升搜索速度，尤其适合文本检索。

工作原理：

分词 (Tokenization)：首先，文本字段（如 content）被分词器（Analyzer）拆分成词项（Term）。例如，句子 “Elasticsearch is fast” 可能被分词为 [“elasticsearch”, “is”, “fast”]（转换为小写，并移除停用词如 “is”）。
构建索引：为每个词项创建一个条目，存储该词项出现的文档 ID 列表和位置信息。例如：
- 词项 “elasticsearch” 出现在文档 ID 1 和 2 中。
- 词项 “fast” 出现在文档 ID 1 中。
搜索过程：当用户搜索查询（如 “fast search”）时，Elasticsearch 会：
- 分词查询为 [“fast”, “search”]。
- 查找倒排索引，获取每个词项的文档列表。
- 合并结果（如使用布尔逻辑），计算相关性得分（如 TF-IDF 或 BM25），返回匹配文档。

倒排索引的优势包括高效处理模糊匹配、短语搜索和大规模文本数据。相关性得分公式常用 BM25，其计算为：
$\text{score}(D,Q) = \sum_{t \in Q} \text{IDF}(t) \cdot \frac{f(t,D) \cdot (k_1 + 1)}{f(t,D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgdl}})}$
其中：

$t$ 是查询词项。
$f (t, D)$ 是词项 $t$ 在文档 $D$ 中的频率。
$∣ D ∣$ 是文档长度。
$\text{avgdl}$ 是平均文档长度。
$k_1$ 和 $b$ 是调节参数（通常 $k_1=1.2$ , $b = 0.75$ ）。

举例说明：
假设有两个文档存储在索引 blog_index 中：

文档 1: {"content": "Elasticsearch is fast for search"}
文档 2: {"content": "Kibana visualizes Elasticsearch data"}

倒排索引构建过程：

分词：
- 文档 1: [“elasticsearch”, “fast”, “search”]
- 文档 2: [“kibana”, “visualizes”, “elasticsearch”, “data”]
倒排索引表：
词项文档 ID 列表其他元数据（如位置）
elasticsearch [1, 2] 位置: doc1-pos1, doc2-pos3
fast [1] 位置: doc1-pos2
search [1] 位置: doc1-pos3
kibana [2] 位置: doc2-pos1
… … …

词项	文档 ID 列表	其他元数据（如位置）
elasticsearch	[1, 2]	位置: doc1-pos1, doc2-pos3
fast	[1]	位置: doc1-pos2
search	[1]	位置: doc1-pos3
kibana	[2]	位置: doc2-pos1
…	…	…

当用户搜索 “Elasticsearch search” 时：

分词查询为 [“elasticsearch”, “search”]。
查找倒排索引：词项 “elasticsearch” 匹配文档 1 和 2；词项 “search” 匹配文档 1。
合并结果：文档 1 匹配所有词项，得分高；文档 2 只匹配部分。
返回文档 1 作为最相关结果。

关键点：倒排索引使 Elasticsearch 能在毫秒级处理 PB 级数据搜索，是全文搜索的基石。优化分词器（如使用标准分析器或自定义）可以提升准确性。

3. 如何在 Elasticsearch 中创建索引和映射 (Mapping)?

创建索引和映射是 Elasticsearch 数据管理的基础步骤。
索引定义数据存储的逻辑结构，而映射 (Mapping) 则定义文档中字段的类型和属性（如数据类型、是否索引、分词器等）。
创建过程通常通过 REST API 完成，支持动态映射（Elasticsearch 自动推断类型）或显式映射（手动定义以提高性能）。

创建步骤：

创建索引：使用 PUT /index_name API 指定索引设置（如分片数）。
定义映射：在创建索引时或之后，使用 PUT /index_name/_mapping API 定义字段映射。映射包括：
- 字段类型：如 text（全文搜索）、keyword（精确匹配）、integer、date 等。
- 属性：如 index（是否索引）、analyzer（分词器）、fields（多字段支持）。
添加文档：一旦映射定义，文档添加时会自动应用映射规则。

最佳实践是显式定义映射，避免动态映射导致的性能问题。例如，对于文本字段，指定 text 类型用于搜索，keyword 类型用于聚合。

举例说明：
假设创建一个产品索引 product_index，存储产品信息。字段包括：

name：文本类型，用于全文搜索。
price：浮点数类型。
category：关键字类型，用于过滤。
description：文本类型，使用自定义分词器。

实际操作示例（使用 Kibana Dev Tools 的 Console）：

// 创建索引并定义映射
PUT /product_index
{
  "settings": {
    "number_of_shards": 2,
    "number_of_replicas": 1,
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {  // 自定义分词器
          "type": "custom",
          "tokenizer": "standard",
          "filter": ["lowercase", "stop"]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer": "my_custom_analyzer"  // 使用自定义分词器
      },
      "price": {
        "type": "float"
      },
      "category": {
        "type": "keyword"
      },
      "description": {
        "type": "text",
        "fields": {  // 多字段：支持全文搜索和精确匹配
          "keyword": {
            "type": "keyword"
          }
        }
      },
      "created_at": {
        "type": "date",
        "format": "yyyy-MM-dd"
      }
    }
  }
}

// 添加文档
POST /product_index/_doc/1
{
  "name": "智能手机",
  "price": 2999.99,
  "category": "电子产品",
  "description": "高性能智能手机，支持5G网络",
  "created_at": "2023-10-01"
}

在这个例子中：

索引 product_index 被创建，有 2 个分片和 1 个副本。
映射明确定义了每个字段的类型：name 是 text 类型，使用自定义分词器进行分词；category 是 keyword 类型，适合精确匹配；description 使用多字段，既支持全文搜索又支持精确聚合。
添加文档后，Elasticsearch 会根据映射验证数据，如果字段类型不匹配（如将字符串添加到 price 字段），会报错。

关键点：显式映射可避免数据不一致，提升查询效率。动态映射虽方便，但可能导致意外类型推断（如数字被误判为文本）。使用工具如 Kibana 可以简化映射管理。

4. 什么是 Kibana? 它如何与 Elasticsearch 一起使用?

Kibana 是一个开源的数据可视化和分析平台，专为 Elasticsearch 设计，提供用户友好的 Web 界面，用于搜索、查看和分析 Elasticsearch 索引中的数据。
它作为 Elastic Stack（原 ELK Stack）的一部分，与 Elasticsearch 紧密集成，支持实时仪表盘、图表、地图和机器学习功能。

Kibana 的核心功能：

数据探索：通过 Discover 界面交互式搜索和过滤 Elasticsearch 数据。
可视化：创建图表（如柱状图、饼图）、地图和仪表盘，支持多种可视化类型。
仪表盘：组合多个可视化组件，创建实时监控面板。
管理工具：提供 Dev Tools 用于执行 Elasticsearch API 查询，Stack Management 用于索引和用户管理。
高级功能：如机器学习异常检测、APM（应用性能监控）和 SIEM（安全信息事件管理）。

如何与 Elasticsearch 一起使用：

连接 Elasticsearch：Kibana 通过配置文件（kibana.yml）指定 Elasticsearch 集群的 URL。启动后，Kibana 从 Elasticsearch 获取索引元数据和数据。
数据索引：用户首先在 Elasticsearch 中创建索引和添加数据（如日志或指标）。
Kibana 操作：
- 在 Discover 中，选择索引模式（Index Pattern）来浏览数据。
- 使用 Visualize 创建图表，基于 Elasticsearch 聚合查询（如 terms aggregation 分组统计）。
- 构建仪表盘，将可视化组件组合，实现实时数据监控。
示例工作流：从日志分析到警报，Kibana 允许设置阈值触发警报。

举例说明：
假设一个电商网站使用 Elasticsearch 存储访问日志，索引名为 web_logs。通过 Kibana 分析用户行为：

设置索引模式：
- 在 Kibana 的 Management > Index Patterns 中，创建模式 web_logs* 匹配索引。
- 定义字段映射，如 timestamp（日期类型）、user_agent（文本类型）。
数据探索：
- 在 Discover 界面，输入查询 response_status: 404 查找所有 404 错误日志。
- 过滤时间范围，查看实时数据。
创建可视化：
- 进入 Visualize，创建柱状图：X 轴为 timestamp（按小时聚合），Y 轴为文档计数，显示错误率趋势。
- 创建饼图：按 user_agent 分组，统计浏览器分布。
构建仪表盘：
- 在 Dashboard 中，添加上述图表，创建实时监控面板。例如，显示每小时错误数和浏览器占比。
- 设置警报：当 404 错误超过阈值时，发送邮件通知。

关键点：Kibana 极大简化了 Elasticsearch 数据的交互，无需编写复杂查询代码。它支持团队协作，导出报表，是运维、BI 和安全分析的理想工具。集成时，确保 Elasticsearch 和 Kibana 版本兼容。

5. 如何在 Elasticsearch 中进行全文搜索?

全文搜索是 Elasticsearch 的核心功能，允许用户基于文本内容检索相关文档，支持模糊匹配、短语搜索和高亮显示。
它通过查询 DSL（Domain Specific Language）实现，使用基于 JSON 的语法构建查询。
全文搜索依赖于倒排索引和相关性评分（如 BM25），确保结果按相关性排序。

搜索步骤：

构建查询：使用查询 DSL，主要查询类型包括：
- match 查询：用于基本全文搜索，自动分词查询字符串。
- match_phrase 查询：匹配完整短语。
- multi_match 查询：在多个字段中搜索。
- 组合查询：使用 bool 查询组合多个条件（如 must、should、must_not）。
执行搜索：通过 REST API 发送查询到索引，如 GET /index_name/_search。
处理结果：Elasticsearch 返回匹配文档列表，每个文档包含相关性得分（_score）和高亮片段。

相关性得分基于算法如 BM25，公式为：
$\text{score}(D,Q) = \sum_{t \in Q} \text{IDF}(t) \cdot \frac{f(t,D) \cdot (k_1 + 1)}{f(t,D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgdl}})}$
其中：

$t$ 是查询词项。
$f (t, D)$ 是词频。
$∣ D ∣$ 是文档长度。
$\text{avgdl}$ 是平均文档长度。
$k_1$ 和 $b$ 是参数（默认 $k_1=1.2$ , $b = 0.75$ ）。

举例说明：
假设在索引 book_index 中存储书籍信息，字段包括 title（文本类型）和 content（文本类型）。搜索标题或内容中包含 “分布式系统” 的书籍，并按相关性排序。

实际操作示例（使用 cURL 或 Kibana Dev Tools）：

GET /book_index/_search
{
  "query": {
    "bool": {
      "should": [  // 满足任一条件即可
        {
          "match": {
            "title": {
              "query": "分布式系统",
              "boost": 2.0  // 提升标题的权重
            }
          }
        },
        {
          "match": {
            "content": "分布式系统"
          }
        }
      ]
    }
  },
  "highlight": {  // 高亮匹配文本
    "fields": {
      "title": {},
      "content": {}
    }
  },
  "size": 5  // 返回前5个结果
}