elasticsearch中字段Doc_values解析

本文探讨了Elasticsearch中DocValues的使用方法及其优势。通过将fielddata存储在磁盘上而非堆内存中,可以有效降低内存消耗并提高垃圾回收效率,从而使得节点更加稳定。此外,DocValues在索引建立时即完成初始化,相比内存中的fielddata,它能够提供更快的初始化速度和更好的搜索性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

In-memory模式中,fielddata受到heap内存大小限制,虽然这个问题可以通过集群的横向扩容解决——可需要经常增加节点——而且即使加了,你还是会发现在其他一些资源利用不充分的节点上,在排序和聚合查询的时候仍然会消耗你大量的heap空间。

fielddata字段数据默认下,会频繁的在内存当中加载。但这不是唯一的方法,在索引数据时,fielddata字段数据还可以被写在磁盘中,这种方式可以提供和加载到内存中的一样的功能,而不会占用heap的内存空间。

 

Docvalues是在1.0.0之后加入到elasticsearch中的。通过基准测试与性能分析,各类的瓶颈——无论是elasticsearch还是lucene,都已经被发现并且已经被移除了。但是直到现在还是远远慢于字段数据放内存的in-memory方式。

1、存放在磁盘代替存放内存,可以允许你的集群负载大量fielddata字段数据而不会超量使用内存。这样,你的heap space就可以设置小一些了,对垃圾回收的速度有所帮助,理所当然的,节点也会更稳定些。

2、DocValues是索引时建立的,而不是搜索的时候。当通过非反向的反向索引搜索时候,in-memort方式,内存中的字段数据必须被频繁的读写,而doc vales 是预先建立的,并能更快的初始化。

像trade-off这种索引量大的搜索,访问fielddata会比较缓慢,设置docvalues会有显著的效果,在大量请求的时候,你甚至不会注意到你的搜索会变慢。结合更快的垃圾回收机制和初始化时间,你会留意到搜索性能会得到有效提升。

文件系统的缓存空间越多,docvalue的性能会越好。如果文件都是docvalues并且都位于文件系统的缓存中,那么访问这些文件的速度几乎与访问内存媲美的。而文件系统缓存由内核控制而非JVM。

启动DocValues

numeric, date, Boolean, binary, and geo-point这些字段以及not_analyzed的字符串可以设置Docvalues属性。一般不处理analyze的字符串字段。 Docvalues在mapping重的每个字段属性中定义,这样对于不同的字段,可以结合in-memory与docvalues使用。

PUT /music/_mapping/song

{

“properties” : {

“tag”: {

“type”:       “string”,

“index” :     “not_analyzed”,

“doc_values”: true

}

}

}

设置了docvalues之后,字段创建时,就是用磁盘存储fielddata而不是内存存储fielddata了。

就这样!不需要再配置其他东西,查询,聚合,排序,以及一般的功能脚本;他们现在都会用到docvalues了。

你可以随便的使用docvalues这参数。用得越多,你使用的heap内存空间就可以越少。在不久的将来,docvalues应该会变成默认的参数。

原文来自:http://www.elastic.co/guide/en/elasticsearch/guide/current/doc-values.html#_enabling_doc_values

### Elasticsearch 中 `doc_values` 的功能和用法 #### 功能概述 `doc_values` 是一种基于磁盘的数据结构,它在文档索引时被创建并存储于磁盘上。这种数据结构允许 Elasticsearch 更高效地处理排序、聚合以及其他需要频繁访问字段的操作[^3]。 #### 原理分析 当文档被索引到 Elasticsearch 时,其内容会被解析成倒排索引以便快速检索匹配条件的文档。然而,对于某些场景(如排序或聚合),仅依赖倒排索引并不够高效。因此,Elasticsearch 提供了 `doc_values` 这一机制。`doc_values` 将字段以列式存储的形式保存下来,使得这些可以被快速读取而无需重新解析 `_source` 字段的内容[^4]。 #### 支持的字段类型 几乎所有的字段类型都支持 `doc_values`,但有一些例外情况需要注意: - **不支持的字段类型**:`text` 和 `annotated_text` 类型的字段默认不会启用 `doc_values`,因为这类字段通常经过分词处理,不适合用于排序或聚合操作。 - **其他字段类型**:诸如数型、日期型、布尔型以及未分词字符串类型的字段均支持 `doc_values`[^1]。 #### 如何验证字段是否启用了 `doc_values` 为了确认某个字段是否已经成功启用了 `doc_values`,可以通过检查索引的映射配置来完成此任务。具体方法如下所示: ```json GET /<index_name>/_mapping ``` 返回的结果中,如果目标字段定义部分存在 `"doc_values": true` 属性,则表明该字段已启用 `doc_values`。 #### 应用实例 假设有一个包含销售记录的索引,其中有一名为 `price` 的数字段表示商品价格。当我们对该字段执行范围查询或者按价格区间进行统计汇总时,Elasticsearch 很可能会利用 `doc_values` 来加速此类操作[^2]。 下面是一个简单的聚合示例代码片段: ```json POST /sales/_search { "size": 0, "aggs": { "prices_histogram": { "histogram": { "field": "price", "interval": 10 } } } } ``` 在此请求中,由于涉及到对 `price` 字段的计算操作,所以系统会优先考虑通过 `doc_values` 获取所需数据而非直接加载整个 `_source` 内容。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值