Elasticsearch 文本结构分析：find_message_structure API 详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00620/article/details/148360396

Elasticsearch 文本结构分析：find_message_structure API 详解

elasticsearch 项目地址: https://gitcode.com/gh_mirrors/elas/elasticsearch

概述

在 Elasticsearch 生态系统中，find_message_structure API 是一个强大的工具，专门用于分析已分割成独立消息的文本数据。这个 API 能够自动识别文本消息的结构模式，为后续的数据索引和处理提供关键信息。

核心功能

find_message_structure API 主要提供以下功能：

自动结构识别：分析文本消息的模式和格式
字段统计：计算字段的常见值和基本数值统计
索引映射建议：生成适合 Elasticsearch 索引的映射配置
数据处理管道：创建可用于数据摄入的 ingest pipeline

使用场景

这个 API 特别适用于以下场景：

日志文件分析（如系统日志、应用日志）
已分割的事件消息处理
半结构化文本数据的预处理
为数据可视化准备结构化数据

API 请求方式

该 API 支持两种 HTTP 方法：

GET _text_structure/find_message_structure
POST _text_structure/find_message_structure

POST 请求需要包含要分析的消息列表：

{
  "messages": [
    "第一条消息内容",
    "第二条消息内容",
    "..."
  ]
}

关键参数解析

API 支持多种参数来定制分析行为：

| 参数名 | 说明 | |--------|------| | column_names | 指定列名（适用于表格数据） | | delimiter | 自定义字段分隔符 | | explain | 返回结构选择的原因说明 | | format | 指定输入格式（如 CSV、JSON 等） | | grok_pattern | 提供自定义的 Grok 模式 | | quote | 设置引用字符 | | should_trim_fields | 是否修剪字段值两端的空格 | | timeout | 设置分析超时时间 | | timestamp_field | 指定时间戳字段 | | timestamp_format | 定义时间戳格式 |

响应内容详解

API 响应包含丰富的信息：

分析统计：
- num_lines_analyzed：分析的行数
- num_messages_analyzed：分析的消息数
格式检测：
- charset：字符编码
- format：检测到的格式类型
模式识别：
- multiline_start_pattern：多行消息起始模式
- grok_pattern：自动生成的 Grok 模式
时间处理：
- timestamp_field：识别的时间戳字段
- timestamp_format：时间戳格式
索引建议：
- mappings：推荐的索引映射
- ingest_pipeline：生成的 ingest pipeline 配置
字段统计：
- field_stats：各字段的统计信息

实际应用示例

假设我们有一组 Elasticsearch 日志消息：

POST _text_structure/find_message_structure
{
  "messages": [
    "[2024-03-05T10:52:36,256][INFO][o.a.l.u.VectorUtilPanamaProvider] Java vector incubator API enabled",
    "[2024-03-05T10:52:41,038][INFO][o.e.p.PluginsService] loaded module [repository-url]",
    "..."
  ]
}

API 将返回包含以下关键信息的响应：