【Elasticsearch】映射：fielddata 详解

原创已于 2025-07-06 00:54:03 修改 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #大数据 #搜索引擎 #搜索 #映射 #Mappings #fielddata

于 2025-06-08 14:18:18 首次发布

Elastic 专栏收录该内容

54 篇文章

订阅专栏

《索引 & 映射》系列，共包含以下文章：

😊 如果您觉得这篇文章有用 ✔️ 的话，请给博主一个一键三连 🚀🚀🚀 吧（点赞 🧡、关注 💛、收藏 💚）！！！您的支持 💖💖💖 将激励 🔥 博主输出更多优质内容！！！

映射：fielddata 详解

1.fielddata 是什么
2.fielddata 的工作原理
3.主要用法
4.使用场景示例
- 示例 1：对 text 字段进行聚合
- 示例 2：对 text 字段进行排序
5.fielddata 与 doc_values 的区别
6.注意事项
7.最佳实践

1.fielddata 是什么

fielddata 是 Elasticsearch 中一种数据结构，用于在内存中缓存字段数据，主要服务于以下场景：

聚合操作（Aggregations）
排序（Sorting）
脚本计算（Scripting）
某些类型的查询（如 field 字段上的 term 查询）

当需要对 text 字段或其他非 doc_values 支持的字段执行上述操作时，Elasticsearch 需要将这些字段的值加载到内存中，这就是 fielddata 的作用。

2.fielddata 的工作原理

按需加载：当第一次需要对某个字段执行聚合 / 排序等操作时，Elasticsearch 会从磁盘读取该字段的所有值并构建内存中的数据结构。
存储在 JVM 堆内存：fielddata 会占用 JVM 堆内存空间。
字段级启用：默认情况下，text 字段禁用 fielddata，keyword 字段使用 doc_values 而非 fielddata。

3.主要用法

3.1 启用 fielddata（通常在 text 字段上）

PUT my_index/_mapping
{
  "properties": {
    "my_text_field": { 
      "type":     "text",
      "fielddata": true
    }
  }
}

3.2 监控 fielddata 使用情况

GET _nodes/stats/indices/fielddata?fields=*

3.3 清除 fielddata 缓存

POST my_index/_cache/clear?fielddata=true

4.使用场景示例

示例 1：对 text 字段进行聚合

GET my_index/_search
{
  "size": 0,
  "aggs": {
    "my_terms": {
      "terms": {
        "field": "my_text_field"  // 需要该字段启用 fielddata
      }
    }
  }
}

示例 2：对 text 字段进行排序

GET my_index/_search
{
  "sort": [
    {
      "my_text_field": {
        "order": "asc"
      }
    }
  ]
}

5.fielddata 与 doc_values 的区别

特性	`fielddata`	`doc_values`
构建时机	查询时按需构建	索引时预先构建
存储位置	JVM 堆内存	磁盘（操作系统缓存）
内存占用	高	低
适用字段类型	主要为 `text` 字段	主要为 `keyword` / `numeric` / `date` 等字段
默认启用	`text` 字段默认禁用	支持的字段默认启用

6.注意事项

内存消耗：fielddata 会显著增加内存使用，特别是高基数（大量唯一值）字段。
性能影响：首次加载 fielddata 可能导致查询延迟。
替代方案：对于 keyword / numeric / date 等字段，优先使用 doc_values。
熔断机制：Elasticsearch 有 fielddata 熔断器防止内存耗尽。

7.最佳实践

尽量避免在 text 字段上启用 fielddata。

如需对文本进行聚合/排序，考虑使用多字段（multi-field）映射：

"my_field": {
  "type": "text",
  "fields": {
    "keyword": {
      "type": "keyword"
    }
  }
}

然后对 my_field.keyword 进行操作。

监控 fielddata 内存使用，设置合理的熔断阈值。