【Elasticsearch】Bucket Correlation Aggregation(桶相关性聚合)

Elasticsearch中的Bucket Correlation Aggregation(桶相关性聚合)是一种用于分析数据集中不同桶(Bucket)之间相关性的高级聚合功能。它属于兄弟管道聚合(Sibling Pipeline Aggregation),通过在配置的兄弟多桶聚合上执行相关性函数来实现。

核心概念

• 兄弟管道聚合:桶相关性聚合依赖于其他聚合(如`terms`、`range`等)生成的桶数据,然后在这些桶数据上进行相关性分析。

• 相关性分析:用于衡量两个或多个数据集之间的关系强度。例如,可以分析某个字段的不同值(如版本号)与另一个度量(如延迟)之间的相关性。

主要参数

• `buckets_path`:指定包含要相关值的桶的路径。它必须指向一个`_count`度量。

• `function`:定义要执行的相关性函数,目前支持`count_correlation`,用于计算计数相关性。

• `indicator`:定义与桶值相关联的指标,包含以下属性:

• `doc_count`:最初创建`expectations`的文档总数,必须大于或等于`buckets_path`中所有值的总和。

• `expectations`:与桶值相关联的数字数组,其长度必须等于`buckets_path`返回的桶的数量。

• `fractions`(可选):在计算平均值和方差时使用的分数数组,用于处理预计算数据和`buckets_path`之间的已知差距。

使用场景

假设有一个日志数据集,其中包含不同版本的软件(`version`字段)和每个版本的延迟(`latency`字段)。我们希望分析不同版本的软件与延迟之间的相关性,以确定是否存在某个版本导致延迟增加。

示例

以下是一个具体的示例,展示如何使用桶相关性聚合来分析`version`字段与`latency`字段之间的相关性:

查询示例

```json

POST correlate_latency/_search?size=0&filter_path=aggregations

{

  "aggs": {

    "buckets": {

      "terms": {

        "field": "version",

        "size": 2

      },

      "aggs": {

        "latency_ranges": {

          "range": {

            "field": "latency",

            "ranges": [

              { "to": 0.0 },

              { "from": 0, "to": 105 },

              { "from": 105, "to": 225 },

              { "from": 225, "to": 445 },

&nbs

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值