Elasticsearch 2.4 cardinality(distinct count) aggregation 返回结果不准确

本文探讨了Elasticsearch在进行去重计算时出现的不一致现象:查询结果显示的文档数量与去重后的计数不符。通过分析发现,此问题源于ES 2.4版本中cardinality聚合对内存使用的限制,当count值超过precision_threshold参数设置的阈值时,计算结果会出现约5%的误差。文中提供了调整precision_threshold的具体方法,并展示了调整后的正确结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题发现

测试人员遇到个问题, ES在查询的时候实际数量只有4条, 做去重计算的时候结果是5, 实际查询如下图: 输入图片说明

图中可以看出 doc_count: 4, dc_hostname:5 这就有点奇怪了,doc_count只有4, 去重之后的count怎么会是5

原因分析及解决方案

经过ES官方文档的检查, 问题出现在ES 2.4, ES对cardinality的计算是放在内存中的, 如果内存不够, 结果可能就不准确, 内存的控制是基于参数precision_threshold, 如果count大于该值, 返回结果就不准确, 大约是5%的误差, 如果count小于该值, 返回结果基于是接近准确

  • ES 2.4 参数说明 precision_threshold默认值是 聚合层数(aggregations)*分桶(buckets)数量, 最大值是40000

  • 参数调整 调整precision_threshold参数为3000

"aggregations": {
	"dc_hostname": {
		"cardinality": {
			"field": "hostname",
			"precision_threshold": 3000
		}
	}
}
  • 查询结果
"buckets": [
  {
    "key": "AM项目监控",
    "doc_count": 4,
    "dc_hostname": {
      "value": 4
    }
  }
]

cardinality-aggrestion官方文档

转载于:https://my.oschina.net/u/2392330/blog/1649683

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值