Elasticsearch聚合之指标聚合metrics

本文介绍了Elasticsearch中的指标聚合,包括基本语法、统计指标如stats和extended_stats,以及percentiles和percentile_ranks的用法。通过示例展示了如何获取平均值、最大值、最小值等统计数据,以及如何自定义统计字段和处理缺失值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

指标聚合的意思是指此系列中的聚合基于从正在聚合的文档中以某种方式提取的值来计算度量标准。 这些值通常从文档的字段中提取(使用字段数据),但也可以使用脚本生成。例如说数据的平均值,最大值,最小值等等,就是一项统计数据。

基本语法

一般常用的语句是这样的:

{
    "size":0,一般只是为了统计数据,就没必要查询元数据了,设为0就好
    "query":{
    	加上你的查询条件,可选
    },
    "aggs":{
        "max_total":{
        	"max":{"field":"total_num"}
        },
        "avg_online":{
        	"max":{"field":"online_num"}
        }
    }
}

其中max这个地方可以换成min,avg,sum,stats,extended_stats,value_count等等一系列值。
以上语句回得到以下响应,里面包含了我们需要的统计数据:

{
    ...
    "aggregations": {
        "max_total": {
            "value": 75.0
        },
        "avg_online": {
            "value": 75.0
        }
    }
}

也可以使用脚本自定义需要统计的字段信息的,例如:

POST /exams/_search?size=0
{
    "aggs" : {
        "avg_corrected_grade" : {
            "avg" : {
                "field" : "grade",
                "script" : {
                    "lang": "painless",
       
### Elasticsearch 聚合功能简介 Elasticsearch聚合功能是一种强大的工具,能够帮助用户对数据集进行复杂的分析和统计操作。它不仅继承了旧版 `facets` 功能的优点,还在性能和灵活性上进行了显著提升[^2]。 #### 指标聚合与存储桶聚合的区别 在 Elasticsearch 中,聚合分为两大类:**指标聚合 (Metrics Aggregation)** 和 **存储桶聚合 (Bucket Aggregation)**。 - **指标聚合** 主要用于计算数值型字段的统计数据,例如平均值 (`avg`)、总和 (`sum`)、最大值 (`max`) 等[^1]。 - **存储桶聚合** 则负责将文档划分为不同的分组(即“桶”),并对这些分组进一步应用其他类型的聚合[^3]。 以下是具体的使用案例: --- ### 官方示例解析 官方提供了如下复合聚合的例子[^4]: ```json GET /_search { "size": 0, "aggs": { "my_buckets": { "composite": { "size": 2, "sources": [ { "date": { "date_histogram": { "field": "timestamp", "calendar_interval": "1d" } } }, { "product": { "terms": { "field": "product" } } } ] } } } } ``` 此查询的作用是基于时间戳字段 (`timestamp`) 创建每日的时间直方图,并按产品名称 (`product`) 进行分类。最终返回的结果会显示每种产品的日销售情况,最多展示两个组合结果。 --- ### 自定义示例:计算订单金额的平均值 假设有一个索引名为 `orders`,其中包含以下字段: - `order_id`: 订单 ID - `amount`: 订单金额 - `status`: 订单状态(如 `"completed"` 或 `"pending"`) 我们可以编写一个简单的聚合来计算已完成订单的平均金额: ```json GET /orders/_search { "size": 0, "query": { "term": { "status.keyword": "completed" } }, "aggs": { "average_amount": { "avg": { "field": "amount" } } } } ``` 上述查询通过过滤条件筛选出状态为 `"completed"` 的订单,并对其金额字段求取平均值。 --- ### 嵌套聚合示例:按地区统计销售额 如果需要更复杂的功能,比如按照地区划分并分别统计各地区的销售额,则可以采用嵌套聚合的方式: ```json GET /sales/_search { "size": 0, "aggs": { "by_region": { "terms": { "field": "region.keyword" }, "aggs": { "total_sales": { "sum": { "field": "revenue" } } } } } } ``` 这段代码首先根据 `region` 字段将数据分成多个区域,然后针对每个区域内的收入字段 (`revenue`) 执行累加运算。 --- ### 性能优化建议 当处理大规模数据时,应考虑以下几个方面以提高效率: 1. 设置合理的 `shard_size` 参数,避免过多的小分区影响速度; 2. 对于高基数字段(Cardinality 较高的字段),谨慎选择合适的算法; 3. 如果可能的话,预先构建好所需的维度字段作为关键字类型 (`keyword`),从而减少运行时开销。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值