【Elasticsearch】索引字段设置 “index”: false 的作用

在上一篇博客《【Elasticsearch】动手创建一个索引》中,我们了解到可以通过设置 "index": false,让索引字段禁止被搜索。

有小伙伴可能会有疑问,下面的搜索语句,返回的结果中仍然包含 request_body 字段啊,这是怎么一回事?

GET /test-index/_search
{
  "size": 5,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      }
    }
  ]
}

在这里插入图片描述

这是一个很好的问题!原因在于:"index": false 只是禁止了字段被搜索,但并没有禁止字段被返回。

1.核心概念澄清

"index": false 的作用:

  • 不能 被搜索(search
  • 不能 被聚合(aggregate
  • 可以 在搜索结果中返回(return in results
  • 可以 通过 _source 获取

1.1 验证搜索限制

您可以试试这个查询,会发现 request_body 字段确实无法被搜索:

GET /test-index/_search
{
  "query": {
    "match": {
      "request_body": "SELECT"  // ← 这会返回空结果,因为该字段不可搜索
    }
  }
}

在这里插入图片描述

1.2 如何控制返回字段

如果希望在搜索结果中 不返回 request_body 字段,有几种方法:

1.2.1 方法 1:使用 _source 排除字段

GET /test-index/_search
{
  "_source": {
    "excludes": ["request_body"]
  },
  "size": 5,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      }
    }
  ]
}

在这里插入图片描述

1.2.2 方法 2:使用 _source 明确指定需要的字段

GET /test-index/_search
{
  "_source": ["timestamp", "log_level", "message", "user_id", "ip_address"],
  "size": 5,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      }
    }
  ]
}

在这里插入图片描述

1.2.3 方法 3:完全禁用 _source(不推荐)

PUT /test-index
{
  "mappings": {
    "_source": {
      "enabled": false  // ← 这样就不会存储原始文档
    },
    "properties": {
      // ... 其他字段配置
    }
  }
}

1.3 实际场景举例

1.3.1 场景 A:日志存储但敏感信息不搜索

{
  "password": {
    "type": "text",
    "index": false  // 不能被搜索,但事故调查时能查看原始日志
  }
}

1.3.2 场景 B:大字段不返回以减少网络传输

{
  "full_html_content": {
    "type": "text", 
    "index": true   // 可以被搜索
  }
}

// 查询时只返回摘要,不返回完整内容
GET /articles/_search
{
  "_source": ["title", "summary", "author"],
  "query": {
    "match": {
      "full_html_content": "关键技术"  // 仍然可以搜索大字段
    }
  }
}

1.4 总结

控制类型配置方法作用
是否可搜索"index": true/false控制字段是否能被查询
是否可返回_source.includes/excludes控制字段是否在结果中显示
是否存储原始值"_source": {"enabled": false}控制是否存储原始文档

在上述情况中

  • request_body 字段:✅ 可返回,❌ 不可搜索
  • 这是完全正常且符合设计的行为

如果确实不希望 request_body 在搜索结果中显示,使用 _source 排除即可。

2.“不能被搜索” 和 “可以在搜索结果中返回” 有什么不一样

🎯 2.1 核心比喻

把 Elasticsearch 想象成一个 图书馆

  • 图书内容 = 文档的原始数据(_source
  • 索引卡片 = 倒排索引(index: true
  • 查询请求 = 您向管理员询问

📚 2.2 具体场景

场景1:“index”: false 但可以返回

{
  "request_body": {
    "type": "text",
    "index": false      // 这本书没有做索引卡片
  }
}

在图书馆中的表现

  • 管理员无法通过卡片找到这本书

    // 这个搜索会返回空结果
    GET /test-index/_search
    {
      "query": {
        "match": {
          "request_body": "SELECT"  // ← 管理员:我找不到包含"SELECT"的书
        }
      }
    }
    
  • 但如果您知道书的位置,可以直接拿到书

    // 这个查询能返回所有文档,包括request_body字段
    GET /test-index/_search
    {
      "query": {
        "match_all": {}  // ← 管理员:给您所有书(不涉及搜索)
      }
    }
    

场景2:“index”: true 且可以返回

{
  "message": {
    "type": "text", 
    "index": true     // 这本书有完整的索引卡片
  }
}

在图书馆中的表现

  • 管理员可以通过卡片找到这本书

    // 这个搜索能成功找到结果
    GET /test-index/_search
    {
      "query": {
        "match": {
          "message": "错误"  // ← 管理员:我找到了3本提到"错误"的书
        }
      }
    }
    
  • 找到后把书给您

    // 返回结果中包含message字段
    {
      "hits": {
        "hits": [
          {
            "_source": {
              "message": "数据库连接错误",  // ← 这就是书的内容
              "timestamp": "..."
            }
          }
        ]
      }
    }
    

🔍 2.3 实际查询演示

查询 1:搜索 request_body(会失败)

GET /test-index/_search
{
  "query": {
    "match": {
      "request_body": "SELECT"  // ← 搜索条件
    }
  }
}

结果:返回空,因为 request_body 没有倒排索引,无法被搜索。

查询 2:获取所有文档(会成功)

GET /test-index/_search
{
  "query": {
    "match_all": {}  // ← 没有搜索条件,只是获取所有文档
  }
}

结果:返回所有文档,包括 request_body 字段,因为只是读取存储的原始数据。

💡 2.4 实际应用场景

场景 A:密码字段

{
  "password": {
    "type": "keyword",
    "index": false  // 不能被搜索,但登录验证时需要读取
  }
}
  • ❌ 不能搜索:WHERE password = '123456'
  • ✅ 可以读取:用户登录时验证密码

场景 B:原始请求数据

{
  "raw_request": {
    "type": "text", 
    "index": false  // 数据太大,不建索引,但调试时需要查看
  }
}
  • ❌ 不能搜索:WHERE raw_request LIKE '%error%'
  • ✅ 可以读取:排查问题时查看完整请求

场景 C:计算字段

{
  "score": {
    "type": "float",
    "index": false  // 由其他字段计算得出,不需要直接搜索
  }
}
  • ❌ 不能搜索:WHERE score > 0.8
  • ✅ 可以读取:排序或展示时使用

🎓 2.5 总结

操作依赖 index: true依赖 _source
搜索
"query": {"match": {"field": "value"}}
✅ 必需❌ 不需要
返回字段值
在搜索结果中看到字段内容
❌ 不需要✅ 必需

简单记忆

  • “不能被搜索” = 图书馆里没有这本书的索引卡片
  • “可以在搜索结果中返回” = 如果您通过其他方式找到这本书,仍然可以阅读它的内容

现在你应该明白这个重要的区别了!

Elasticsearch 中,当一个字段被定义为 `nested` 类型,并且其 `index` 和 `doc_values` 属性都被设置为 `false` 时,该字段将不会被索引,也无法通过常规的查询语句进行检索。然而,在某些场景下仍然可以通过 `script` 查询访问这些字段的数据,前提是文档已经被成功存储并且字段值存在于原始 `_source` 中。 ### nested 字段的 script 查询方式 当 `index: false` 和 `doc_values: false` 时,字段无法使用标准查询(如 `term`、`match`)进行匹配,但可以借助 `Painless` 脚本语言从 `_source` 中提取数据进行判断或计算。 以下是一个示例,展示如何对 `nested` 类型字段进行基于脚本的查询: ```json GET /my-index-000001/_search { "query": { "nested": { "path": "user", "query": { "script_score": { "script": { "source": """ if (params._source.user != null && params._source.user.name == 'John Doe') { return true; } return false; """ } } } } } } ``` 在这个例子中: - `user` 是一个 `nested` 类型字段。 - 使用了 `script_score` 来执行自定义逻辑。 - 脚本通过 `params._source` 访问原始文档中的字段值,并对其进行判断[^3]。 ### 注意事项 - **性能问题**:由于没有索引支持,这种查询会遍历所有文档并加载 `_source`,因此在大数据集上效率较低。 - **内存消耗**:频繁使用脚本查询可能增加 JVM 堆内存压力,建议仅在必要时使用。 - **安全限制**:确保启用了存储 `_source` 字段的功能,否则无法从中读取数据。 ### 替代方案 如果需要频繁查询某个字段,即使它是 `nested` 类型,也应尽量将其 `index` 设置为 `true`,并根据需求启用 `doc_values`,以提高查询性能和灵活性[^2]。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据与AI实验室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值