34、Elasticsearch近似聚合与显著词分析

Elasticsearch近似聚合与显著词分析

1. 基数度量(Cardinality Metric)

1.1 算法基础

基数度量是一种近似算法,基于HyperLogLog++(HLL)算法。HLL通过对输入进行哈希处理,并利用哈希值的位来对基数进行概率估计。该算法具有以下特性:
- 可配置精度:可控制内存使用,精度越高,内存使用越多。
- 低基数集合的高精度:在低基数集合上能提供出色的准确性。
- 固定内存使用:无论唯一值是数千个还是数十亿个,内存使用仅取决于配置的精度。

1.2 精度配置

要配置精度,需指定 precision_threshold 参数。该阈值定义了一个点,低于此点的基数预计非常接近准确值。例如:

GET /cars/transactions/_search?search_type=count
{
    "aggs" : {
        "distinct_colors" : {
            "cardinality" : {
              "field" : "color",
              "precision_threshold" : 100 
            }
        }
    }
}

precision_threshold 接受0 - 40,000之间的数字,更大的值将被视为等同于40,000。此示例确保具有100个或更少不同值的字段将极其准确。如果基数低于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值