elasticsearch 一次查询多次按需聚合-查询语句

本文介绍如何在Elasticsearch中实现一次查询并按需多次聚合,通过具体实例展示了如何利用term和terms查询筛选数据类型,同时进行最新数据检索及平均值计算,以此减少对Elasticsearch的重复请求。

elasticsearch查询需求:就是想在一次查询查询出想要的数据,然后分多次按需聚合,减少请求es的次数,减少往返es时间

GET dq_*/_doc/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "header.device.device_type": "device_type111"
          }
        },
        {
          "terms": {
            "data_type": ["data_type1", "data_type2"]  # 相当于MySQL 的 where data_type = 'data_type1' or data_type = 'data_type2'
          }
        }

      ]
    }
  },
  "aggs": {
    "single_cross": {
      "terms": {
        "field": "cross_id"
      },
      "aggs": {
        "aggs_data_type1": {

          # 过滤出 data_type == data_type1 的然后找出最新的数据
          "terms": {
                  "field": "data_type",
                  "size": 1000,
                  "include": "data_type1"
              },
          "aggs": {
            "lastest_data_type1": {
              "max": {
                "field": "timestamp_ms"
              }
            }
          }
        },

        "aggs_data_type2": {

          # 过滤出 data_type == data_type2 的然后计算平均数
          "terms": {
                  "field": "data_type",
                  "size": 1000,
                  "include": "data_type2"
              },
          "aggs": {
            "lastest_data_type2": {
              "avg": {
                "field": "timestamp_ms"
              }
            }
          }
        }
      }
    }
  },
  "size": 5
}

 {

"query: {}

"aggs" : {
        "single_cross_detail": {
            "date_histogram": {
                "field": "header.timestamp.orig_timestamp_ms",
                "interval": "%ss" % interval_time,
                # "min_doc_count": 1,  # 设置返回的最小文档统计数,过滤掉统计为 0 的区间
                # "format": "yyyy-MM-dd HH:mm:ss",  # 人性化展示,可选
                "time_zone": "+08:00",  # 防止时区错乱
            }

}

### Elasticsearch 聚合查询语法详解 Elasticsearch聚合功能允许用户通过复杂的逻辑对数据进行统计分析。其基本结构类似于普通的查询语句,但更加专注于数据分析和汇总[^1]。 #### 基本语法 聚合查询的核心由三部分组成: - **查询条件**:用于筛选要参与聚合的数据集,支持 `term`、`match` 或 `range` 等标准查询语法。 - **聚合函数**:定义具体的计算方式,例如求和 (`sum`)、平均值 (`avg`)、最大/最小值 (`max`, `min`)、分组计数 (`terms`) 等等。 - **嵌套聚合**:可以在一个聚合的基础上进一步细化分析,实现多层统计数据的提取。 以下是几个常见的聚合示例: --- #### 示例 1: 计算唯一值数量 (Cardinality) 如果希望获取某个字段的不同值的数量(即去重后的结果),可以使用 `cardinality` 聚合。以下是一个例子,展示如何统计索引中唯一的 `user_id` 数量[^2]: ```json GET /users/_search { "size": 0, "aggs": { "distinct_user_ids": { "cardinality": { "field": "user_id.keyword" } } } } ``` 此查询的结果将返回 `user_id` 字段中的不同值总数。 --- #### 示例 2: 统计数值型字段的最大值、最小值、总和及均值 对于数值型字段,可以通过 `stats` 聚合一次性获得多个统计指标,包括计数 (`count`)、最大值 (`max`)、最小值 (`min`)、平均值 (`avg`) 和总和 (`sum`)。下面的例子展示了如何针对价格字段执行此类操作[^3]: ```json GET /products/_search { "size": 0, "aggs": { "price_stats": { "stats": { "field": "price" } } } } ``` 上述代码会生成一份详细的统计报告,涵盖所有产品的价格分布情况。 --- #### 示例 3: 使用桶聚合按类别分组并计算子级指标 当要按照某些分类字段(如颜色或品牌)对记录进行划分时,可采用 `terms` 聚合作为顶层容器,并在其内部嵌套其他类型的聚合来扩展分析维度[^4]。如下所示的是基于汽车颜色分组后分别计算每种颜色对应的平均售价以及各品牌的最低价与最高价: ```json GET /cars/_search { "size": 0, "aggs": { "colors": { "terms": { "field": "color.keyword" }, "aggs": { "avg_price": { "avg": { "field": "price" } }, "brands": { "terms": { "field": "brand.keyword" }, "aggs": { "min_price": { "min": { "field": "price" } }, "max_price": { "max": { "field": "price" } } } } } } } } ``` 这段脚本能帮助理解不同类型车辆的价格区间及其市场表现。 --- #### 示例 4: 时间序列分析 (Date Histogram) 为了研究时间跨度内的趋势变化,推荐利用 `date_histogram` 聚合工具。它能够依据预设的时间间隔自动分割数据点集合,从而便于观察周期性的模式特征[^5]。比如监控日志事件发生频率随天数波动的情形: ```json GET /logs/_search { "size": 0, "aggs": { "events_per_day": { "date_histogram": { "field": "@timestamp", "calendar_interval": "day" } } } } ``` 以上配置将以每日为单位累积条目数目形成可视化图表素材。 --- ### 总结 通过对 Elasticsearch 提供的各种内置方法灵活运用,开发者几乎可以满足任何场景下的大数据挖掘求。无论是简单的总量概览还是深入细致的趋势洞察,都能借助恰当设计好的聚合表达式达成目标。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值