【Springcloud微服务】Elasticsearch下篇

最新推荐文章于 2025-12-02 20:14:19 发布

原创最新推荐文章于 2025-12-02 20:14:19 发布 · 942 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#spring cloud #微服务 #elasticsearch

Springcloud微服务专栏收录该内容

12 篇文章

订阅专栏

🔥 本文由程序喵正在路上原创，优快云首发！
💖 系列专栏：Springcloud微服务
🌠 首发时间：2025年8月25日
🦋 欢迎关注🖱点赞👍收藏🌟留言🐾

1 DSL查询

在前面的学习中，我们已经导入了大量数据到 elasticsearch 中，实现了商品数据的存储。不过查询商品数据时依然采用的是根据 id 查询，而非模糊搜索。

下面，我们来研究下 elasticsearch 的数据搜索功能。Elasticsearch 提供了基于 JSON 的 DSL（Domain Specific Language）语句来定义查询条件，其 JavaAPI 就是在组织 DSL 条件。

Elasticsearch 的查询可以分为两大类：

叶子查询（Leaf query clauses）：一般是在特定的字段里查询特定值，属于简单查询，很少单独使用
复合查询（Compound query clauses）：以逻辑方式组合多个叶子查询或者更改叶子查询的行为方式

1.1 快速入门

我们依然先在 Kibana 的 DevTools 中学习查询的 DSL 语法。首先来看查询的语法结构：

GET /{索引库名}/_search
{
  "query": {
    "查询类型": {
      // .. 查询条件
    }
  }
}

说明：

GET /{索引库名}/_search：其中的 _search 是固定路径，不能修改

例如，我们以最简单的无条件查询为例，无条件查询的类型是：match_all，也就是匹配所有，其查询语句如下：

GET /items/_search
{
  "query": {
    "match_all": {    
    }
  }
}

由于 match_all 无条件，所以条件位置不写即可。

执行结果如下：

在这里插入图片描述

你会发现虽然是 match_all，但是响应结果中并不会包含索引库中的所有文档，而是仅有 10 条。这是因为出于安全考虑，elasticsearch 设置了默认的查询页数。

1.2 叶子查询

叶子查询的类型也可以做进一步细分，详情可以查看官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.12/query-dsl.html。

在这里插入图片描述

这里列举一些常见的，例如：

全文检索查询（Full Text Queries）：利用分词器对用户输入搜索条件先分词，得到词条，然后再利用倒排索引搜索词条。例如：
- match
- multi_match
精确查询（Term-level queries）：不对用户输入搜索条件分词，根据字段内容精确值匹配。但只能查找keyword、数值、日期、boolean类型的字段。例如：
- ids
- term
- range
地理坐标查询：用于搜索地理位置，搜索方式很多，例如：
- geo_bounding_box：按矩形搜索
- geo_distance：按点和半径搜索

1.2.1 全文检索查询

全文检索的种类也很多，可以参考官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.12/full-text-queries.html。

以全文检索中的 match 为例，语法如下：

GET /{索引库名}/_search
{
  "query": {
    "match": {
      "字段名": "搜索条件"
    }
  }
}

示例：

# 全文检索
GET /items/_search
{
  "query": {
    "match": {
      "name": "小米"
    }
  }
}

在这里插入图片描述

与 match 类似的还有 multi_match，区别在于后者可以同时对多个字段搜索，而且多个字段都要满足，语法如下：

GET /{索引库名}/_search
{
  "query": {
    "multi_match": {
      "query": "搜索条件",
      "fields": ["字段1", "字段2"]
    }
  }
}

示例：

# 全文检索
GET /items/_search
{
  "query": {
    "multi_match": {
      "query": "牛奶",
      "fields": ["name", "brand"]
    }
  }
}

在这里插入图片描述

1.2.2 精确查询

精确查询，英文是 Term-level query，顾名思义，词条级别的查询。也就是说不会对用户输入的搜索条件再分词，而是作为一个词条，与搜索的字段内容精确值匹配。因此推荐查找keyword、数值、日期、boolean类型的字段。例如：

id
price
城市
地名
人名

等等，作为一个整体才有含义的字段。

详情可以查看官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.12/term-level-queries.html。

以 term 查询为例，其语法如下：

GET /{索引库名}/_search
{
  "query": {
    "term": {
      "字段名": {
        "value": "搜索条件"
      }
    }
  }
}

示例：

# term精确查询
GET /items/_search
{
  "query": {
    "term": {
      "brand": {
        "value": "诺基亚"
      }
    }
  }
}

在这里插入图片描述

当你输入的搜索条件不是词条，而是短语时，由于不做分词，你反而搜索不到：

在这里插入图片描述

再来看下 range 查询，语法如下：

GET /{索引库名}/_search
{
  "query": {
    "range": {
      "字段名": {
        "gte": {最小值},
        "lte": {最大值}
      }
    }
  }
}

range 是范围查询，对于范围筛选的关键字有：

gte：大于等于
gt：大于
lte：小于等于
lt：小于

示例：这里我们查询价格在 100 块到 300 块之间的商品，注意，数据库中 price 的单位是分。

# range精确查询
GET /items/_search
{
  "query": {
    "range": {
      "price": {
        "gte": 10000,
        "lte": 30000
      }
    }
  }
}

在这里插入图片描述

1.3 复合查询

复合查询大致可以分为两类：

第一类：基于逻辑运算组合叶子查询，实现组合条件，例如
- bool
第二类：基于某种算法修改查询时的文档相关性算分，从而改变文档排名。例如：
- function_score
- dis_max

其它复合查询及相关语法可以参考官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.12/compound-queries.html。

bool 查询，即布尔查询。就是利用逻辑运算来组合一个或多个查询子句的组合。bool 查询支持的逻辑运算有：

must：必须匹配每个子查询，类似 “与”
should：选择性匹配子查询，类似 “或”
must_not：必须不匹配，不参与算分，类似 “非”
filter：必须匹配，不参与算分

bool 查询的语法如下：

GET /items/_search
{
  "query": {
    "bool": {
      "must": [
        {"match": {"name": "手机"}}
      ],
      "should": [
        {"term": {"brand": { "value": "vivo" }}},
        {"term": {"brand": { "value": "小米" }}}
      ],
      "must_not": [
        {"range": {"price": {"gte": 2500}}}
      ],
      "filter": [
        {"range": {"price": {"lte": 1000}}}
      ]
    }
  }
}

出于性能考虑，与搜索关键字无关的查询尽量采用 must_not 或 filter 逻辑运算，避免参与相关性算分。

例如黑马商城的搜索页面：

在这里插入图片描述

其中输入框的搜索条件肯定要参与相关性算分，可以采用 match。但是价格范围过滤、品牌过滤、分类过滤等尽量采用 filter，不要参与相关性算分。

比如，我们要搜索手机，但品牌必须是华为，价格必须是 900~1599，那么可以这样写：

GET /items/_search
{
  "query": {
    "bool": {
      "must": [
        {"match": {"name": "手机"}}
      ],
      "filter": [
        {"term": {"brand": { "value": "华为" }}},
        {"range": {"price": {"gte": 90000, "lt": 159900}}}
      ]
    }
  }
}

在这里插入图片描述

1.4 排序

elasticsearch 默认是根据相关度算分（_score）来排序，但是也支持自定义方式对搜索结果排序。不过分词字段无法排序，能参与排序字段类型有：keyword类型、数值类型、地理坐标类型、日期类型等。

详细说明可以参考官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.12/sort-search-results.html。

语法说明：

GET /indexName/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "排序字段": {
        "order": "排序方式asc或desc"
      }
    }
  ]
}

比如，我们按照商品价格降序排序：

GET /items/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "price": {
        "order": "desc"
      }
    }
  ]
}

1.5 分页

elasticsearch 默认情况下只返回 top10 的数据。而如果要查询更多数据就需要修改分页参数了。

1.5.1 基础分页

elasticsearch 中通过修改 from、size 参数来控制要返回的分页结果：

from：从第几个文档开始
size：总共查询几个文档

类似于 mysql 中的 limit ?, ?。

语法如下：

GET /items/_search
{
  "query": {
    "match_all": {}
  },
  "from": 0, // 分页开始的位置，默认为0
  "size": 10,  // 每页文档数量，默认10
  "sort": [
    {
      "price": {
        "order": "desc"
      }
    }
  ]
}

示例：

GET /items/_search
{
  "query": {
    "match": {
      "name": "手机"
    }
  },
  "sort": [
    {
      "sold": {
        "order": "desc"
      }
    },
    {
      "price": {
        "order": "asc"
      }
    }
  ],
  "from": 0,
  "size": 5
}

1.5.2 深度分页

elasticsearch 的数据一般会采用分片存储，也就是把一个索引中的数据分成 N 份，存储到不同节点上。这种存储方式比较有利于数据扩展，但给分页带来了一些麻烦。

比如一个索引库中有 100000 条数据，分别存储到 4 个分片，每个分片 25000 条数据。现在每页查询 10 条，查询第 100 页。那么分页查询的条件如下：

GET /items/_search
{
  "from": 990, // 从第990条开始查询
  "size": 10, // 每页查询10条
  "sort": [
    {
      "price": "asc"
    }
  ]
}

从语句来分析，要查询第 990~1000 名的数据。

从实现思路来分析，肯定是将所有数据排序，找出前 1000 名，截取其中的 990~1000 的部分。但问题来了，我们如何才能找到所有数据中的前 1000 名呢？

要知道每一片的数据都不一样，第 1 片上的第 900~1000，在另 1 个节点上并不一定依然是 900~1000 名。所以我们只能在每一个分片上都找出排名前 1000 的数据，然后汇总到一起，重新排序，才能找出整个索引库中真正的前 1000 名，此时截取 990~1000 的数据即可。

如图：

在这里插入图片描述

试想一下，假如我们现在要查询的是第 999 页数据呢，是不是要找第 9990~10000 的数据，那岂不是需要把每个分片中的前 10000 名数据都查询出来，汇总在一起，在内存中排序？如果查询的分页深度更深呢，需要一次检索的数据岂不是更多？

由此可知，当查询分页深度较大时，汇总数据过多，对内存和 CPU 会产生非常大的压力。

因此 elasticsearch 会禁止 from+size 超过 10000 的请求。

针对深度分页，elasticsearch 提供了两种解决方案：

search after：分页时需要排序，原理是从上一次的排序值开始，查询下一页数据。官方推荐使用的方式。
scroll：原理将排序后的文档id形成快照，保存下来，基于快照做分页。官方已经不推荐使用。

总结：

大多数情况下，我们采用普通分页就可以了。查看百度、京东等网站，会发现其分页都有限制。例如百度最多支持77页，每页不足20条。京东最多100页，每页最多60条。
因此，一般我们采用限制分页深度的方式即可，无需实现深度分页。

1.6 高亮

1.6.1 高亮原理

什么是高亮显示呢？

我们在百度，京东搜索时，关键字会变成红色，比较醒目，这叫高亮显示：

在这里插入图片描述

观察页面源码，你会发现两件事情：

高亮词条都被加了 <em> 标签
<em> 标签都添加了红色样式

css 样式肯定是前端实现页面的时候写好的，但是前端编写页面的时候是不知道页面要展示什么数据的，不可能给数据加标签。而服务端实现搜索功能，要是由 elasticsearch 做分词搜索，是知道哪些词条需要高亮的。

因此词条的高亮标签肯定是由服务端提供数据的时候已经加上的。

因此实现高亮的思路就是：

用户输入搜索关键字搜索数据
服务端根据搜索关键字到 elasticsearch 搜索，并给搜索结果中的关键字词条添加 html 标签
前端提前给约定好的 html 标签添加 CSS 样式

1.6.2 实现高亮

事实上 elasticsearch 已经提供了给搜索关键字加标签的语法，无需我们自己编码。

基本语法如下：

GET /{索引库名}/_search
{
  "query": {
    "match": {
      "搜索字段": "搜索关键字"
    }
  },
  "highlight": {
    "fields": {
      "高亮字段名称": {
        "pre_tags": "<em>",
        "post_tags": "</em>"
      }
    }
  }
}

注意：

搜索必须有查询条件，而且是全文检索类型的查询条件，例如 match
参与高亮的字段必须是 text 类型的字段
默认情况下参与高亮的字段要与搜索字段一致，除非添加： required_field_match=false

示例：

GET /items/_search
{
  "query": {
    "match": {
      "name": "小米手机"
    }
  },
  "highlight": {
    "fields": {
      "name": {
        "pre_tags": "<em>",
        "post_tags": "</em>"
      }
    }
  }
}

默认添加 em 标签，所以也可以不设置。

在这里插入图片描述

1.7 总结

查询的 DSL 是一个大的 JSON 对象，包含下列属性：

query：查询条件
from 和 size：分页条件
sort：排序条件
highlight：高亮条件

2 RestClient查询

文档的查询依然使用 RestHighLevelClient 对象，查询的基本步骤如下：

创建 request 对象，这次是搜索，所以是 SearchRequest
准备请求参数，也就是查询 DSL 对应的 JSON 参数
发起请求
解析响应，响应结果相对复杂，需要逐层解析

2.1 快速入门

之前说过，由于 Elasticsearch 对外暴露的接口都是 Restful 风格的接口，因此 JavaAPI 调用就是在发送 Http 请求。而我们核心要做的就是利用 Java 代码组织请求参数，解析响应结果。

这个参数的格式完全参考 DSL 查询语句的 JSON 结构，我们可以将 JavaAPI 与 DSL 语句对比着来学习。

2.1.1 发送请求

首先以 match_all 查询为例，其 DSL 和 JavaAPI 的对比如图：

在这里插入图片描述

代码解读：

第一步，创建 SearchRequest 对象，指定索引库名
第二步，利用 request.source() 构建 DSL，DSL 中可以包含查询、分页、排序、高亮等
query()：代表查询条件，利用 QueryBuilders.matchAllQuery() 构建一个 match_all 查询的 DSL
第三步，利用 client.search() 发送请求，得到响应

这里关键的 API 有两个，一个是 request.source()，它构建的就是 DSL 中的完整 JSON 参数。其中包含了 query、sort、from、size、highlight 等所有功能。另一个是 QueryBuilders，其中包含了我们学习过的各种叶子查询、复合查询等。

具体代码，这里新建了一个测试类 SearchTest：

package com.hmall.item.es;

import lombok.extern.slf4j.Slf4j;
import org.apache.http.HttpHost;
import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.index.query.QueryBuilders;
import org.junit.jupiter.api.AfterEach;
import org.junit.jupiter.api.BeforeEach;
import org.junit.jupiter.api.Test;

import java.io.IOException;

@Slf4j
public class SearchTest {

    private RestHighLevelClient client;

    @Test
    void testMatchAll() throws IOException {
        // 1.准备Request
        SearchRequest request = new SearchRequest("items");
        // 2.组织DSL参数
        request.source()
                .query(QueryBuilders.matchAllQuery());
        // 3.发送请求, 得到响应结果
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        System.out.println(response);
    }

    @BeforeEach
    void setUp() {
        this.client = new RestHighLevelClient(RestClient.builder(
                HttpHost.create("http://192.168.150.128:9200")
        ));
    }

    @AfterEach
    void tearDown() throws IOException {
        this.client.close();
    }
}

在这里插入图片描述

2.1.2 解析响应结果

在发送请求以后，得到了响应结果 SearchResponse，这个类的结构与我们在 kibana 中看到的响应结果 JSON 结构完全一致。

因此，我们解析 SearchResponse 的代码就是在解析这个 JSON 结果，对比类似如下：

在这里插入图片描述

代码解读：
elasticsearch 返回的结果是一个 JSON 字符串，结构包含：

hits：命中的结果
- total：总条数，其中的 value 是具体的总条数值
- max_score：所有结果中得分最高的文档的相关性算分
- hits：搜索结果的文档数组，其中的每个文档都是一个 json 对象
  - _source：文档中的原始数据，也是 json 对象

因此，我们解析响应结果，就是逐层解析 JSON 字符串，流程如下：

SearchHits：通过 response.getHits() 获取，就是 JSON 中的最外层的 hits，代表命中的结果
- searchHits.getTotalHits().value：获取总条数信息
- searchHits.getHits()：获取 SearchHit 数组，也就是文档数组
  - hit.getSourceAsString()：获取文档结果中的 _source，也就是原始的 json 文档数据

2.1.3 总结

文档搜索的基本步骤是：

创建 SearchRequest 对象
准备 request.source()，也就是 DSL
1. QueryBuilders 来构建查询条件
2. 传入 request.source() 的 query() 方法
发送请求，得到结果
解析结果（参考 JSON 结果，从外到内，逐层解析）

完整代码如下：

@Test
void testMatchAll() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.组织请求参数
    request.source().query(QueryBuilders.matchAllQuery());
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

private void handleResponse(SearchResponse response) {
    SearchHits searchHits = response.getHits();
    // 1.获取总条数
    long total = searchHits.getTotalHits().value;
    System.out.println("共搜索到" + total + "条数据");
    // 2.遍历结果数组
    SearchHit[] hits = searchHits.getHits();
    for (SearchHit hit : hits) {
        // 3.得到_source，也就是原始json文档
        String source = hit.getSourceAsString();
        // 4.反序列化并打印
        ItemDoc item = JSONUtil.toBean(source, ItemDoc.class);
        System.out.println(item);
    }
}

在这里插入图片描述

2.2 叶子查询

所有的查询条件都是由 QueryBuilders 来构建的，叶子查询也不例外。因此整套代码中变化的部分仅仅是 query 条件构造的方式，其它不动。

match 查询：

@Test
void testMatch() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.组织请求参数
    request.source().query(QueryBuilders.matchQuery("name", "脱脂牛奶"));
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

multi_match 查询：

@Test
void testMultiMatch() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.组织请求参数
    request.source().query(QueryBuilders.multiMatchQuery("脱脂牛奶", "name", "category"));
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

range 查询：

@Test
void testRange() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.组织请求参数
    request.source().query(QueryBuilders.rangeQuery("price").gte(10000).lte(30000));
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

term 查询：

@Test
void testTerm() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.组织请求参数
    request.source().query(QueryBuilders.termQuery("brand", "华为"));
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

2.3 复合查询

复合查询也是由 QueryBuilders 来构建，我们以 bool 查询为例，DSL 和 JavaAPI 的对比如图：

在这里插入图片描述
完整代码如下：

@Test
void testBool() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.组织请求参数
    request.source().query(
            QueryBuilders.boolQuery()
                    .must(QueryBuilders.matchQuery("name", "脱脂牛奶"))
                    .filter(QueryBuilders.termQuery("brand", "德亚"))
                    .filter(QueryBuilders.rangeQuery("price").lte(30000))
    );
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

在这里插入图片描述

2.4 排序和分页

之前说过，requeset.source() 就是整个请求 JSON 参数，所以排序、分页都是基于这个来设置，其 DSL 和 JavaAPI 的对比如下：

在这里插入图片描述

完整示例代码：

@Test
void testPageAndSort() throws IOException {
    // 模拟前端传过来的分页参数
    int pageNo = 1, pageSize = 5;

    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.组织请求参数
    // 2.1.搜索条件参数
    request.source().query(QueryBuilders.matchAllQuery());
    // 2.2.排序参数
    request.source().sort("sold", SortOrder.DESC);
    // 2.3.分页参数
    request.source().from((pageNo - 1) * pageSize).size(pageSize);
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

2.5 高亮

高亮查询与前面的查询有两点不同：

条件同样是在 request.source() 中指定，只不过高亮条件要基于 HighlightBuilder 来构造
高亮响应结果与搜索的文档结果不在一起，需要单独解析

首先来看高亮条件构造，其 DSL 和 JavaAPI 的对比如图：

在这里插入图片描述

示例代码如下：

@Test
void testHighlight() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.组织请求参数
    // 2.1.query条件
    request.source().query(QueryBuilders.matchQuery("name", "脱脂牛奶"));
    // 2.2.高亮条件
    request.source().highlighter(
            SearchSourceBuilder.highlight()
                    .field("name")
                    .preTags("<em>")
                    .postTags("</em>")
    );
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);
}

其实这个方法执行结果和前面是一样的，因为高亮部分是在 highlight 字段中。

所以高亮内容需要单独解析出来，其 DSL 和 JavaAPI 的对比如图：

在这里插入图片描述

代码解读：

第3、4步：从结果中获取 _source。hit.getSourceAsString()，这部分是非高亮结果，json字符串。还需要反序列为 ItemDoc 对象
第5步：获取高亮结果。hit.getHighlightFields()，返回值是一个 Map，key 是高亮字段名称，值是 HighlightField 对象，代表高亮值
第5.1步：从 Map 中根据高亮字段名称，获取高亮字段值对象 HighlightField
第5.2步：从 HighlightField 中获取 Fragments，并且转为字符串。这部分就是真正的高亮字符串了
最后：用高亮的结果替换 ItemDoc 中的非高亮结果

handleResponse 方法修改后如下：

private void handleResponse(SearchResponse response) {
    SearchHits searchHits = response.getHits();
    // 1.获取总条数
    long total = searchHits.getTotalHits().value;
    System.out.println("共搜索到" + total + "条数据");
    // 2.遍历结果数组
    SearchHit[] hits = searchHits.getHits();
    for (SearchHit hit : hits) {
        // 3.得到_source，也就是原始json文档
        String source = hit.getSourceAsString();
        // 4.反序列化
        ItemDoc item = JSONUtil.toBean(source, ItemDoc.class);
        // 5.获取高亮结果
        Map<String, HighlightField> hfs = hit.getHighlightFields();
        if (CollUtils.isNotEmpty(hfs)) {
            // 5.1.有高亮结果，获取name的高亮结果
            HighlightField hf = hfs.get("name");
            if (hf != null) {
                // 5.2.获取第一个高亮结果片段，就是商品名称的高亮值
                String hfName = hf.getFragments()[0].string();
                item.setName(hfName);
            }
        }
        System.out.println(item);
    }
}

在这里插入图片描述

3 数据聚合

聚合（aggregations）可以让我们极其方便的实现对数据的统计、分析、运算。例如：

什么品牌的手机最受欢迎？
这些手机的平均价格、最高价格、最低价格？
这些手机每月的销售情况如何？

实现这些统计功能的比数据库的 sql 要方便得多，而且查询速度非常快，可以实现近实时搜索效果。

官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.12/search-aggregations.html。

聚合常见的有几类：

桶（Bucket）聚合：用来对文档做分组
Term Aggregation：按照文档字段值分组，例如按照品牌值分组、按照国家分组
Date Histogram：按照日期阶梯分组，例如一周为一组，或者一月为一组
度量（Metric）聚合：用以计算一些值，比如：最大值、最小值、平均值等
Avg：求平均值
Max：求最大值
Min：求最小值
Stats：同时求max、min、avg、sum等
管道（pipeline）聚合：以其它聚合的结果为基础做进一步运算

注意：参加聚合的字段必须是keyword、日期、数值、布尔类型

3.1 DSL实现聚合

与之前的搜索功能类似，我们依然先学习 DSL 的语法，再学习 JavaAPI。

3.1.1 Bucket聚合

例如我们要统计所有商品中共有哪些商品分类，其实就是以分类（category）字段对数据分组。category 值一样的放在同一组，属于 Bucket 聚合中的 Term 聚合。

基本语法如下：

GET /items/_search
{
  "size": 0, 
  "aggs": {
    "category_agg": {
      "terms": {
        "field": "category",
        "size": 20
      }
    }
  }
}

语法说明：

size：设置size为 0，就是每页查 0 条，则结果中就不包含文档，只包含聚合
aggs：定义聚合
- category_agg：聚合名称，自定义，但不能重复
  - terms：聚合的类型，按分类聚合，所以用 term
    - field：参与聚合的字段名称
    - size：希望返回的聚合结果的最大数量

来看下查询的结果：

在这里插入图片描述

3.1.2 带条件聚合

默认情况下，Bucket 聚合是对索引库的所有文档做聚合，例如我们统计商品中所有的品牌，结果如下：

在这里插入图片描述

可以看到统计出的品牌非常多。

但在真实场景下，用户会输入搜索条件，因此聚合必须是对搜索结果聚合。那么聚合必须添加限定条件。

例如，我想知道价格高于 3000 元的手机品牌有哪些，该怎么统计呢？

我们需要从需求中分析出搜索查询的条件和聚合的目标：

搜索查询条件：
- 价格高于 3000
- 必须是手机
聚合目标：统计的是品牌，肯定是对 brand 字段做 term 聚合

语法如下：

GET /items/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "category": "手机"
          }
        },
        {
          "range": {
            "price": {
              "gte": 300000
            }
          }
        }
      ]
    }
  }, 
  "size": 0, 
  "aggs": {
    "brand_agg": {
      "terms": {
        "field": "brand",
        "size": 20
      }
    }
  }
}

聚合结果如下：

{
  "took" : 164,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 11,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "brand_agg" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "Apple",
          "doc_count" : 7
        },
        {
          "key" : "华为",
          "doc_count" : 2
        },
        {
          "key" : "三星",
          "doc_count" : 1
        },
        {
          "key" : "小米",
          "doc_count" : 1
        }
      ]
    }
  }
}

可以看到，结果中只剩下 4 个品牌了。

3.1.3 Metric聚合

前面，我们统计了价格高于 3000 的手机品牌，形成了一个个桶。如果现在我们需要对桶内的商品做运算，获取每个品牌价格的最小值、最大值、平均值。

这就要用到 Metric 聚合了，例如 stat 聚合，就可以同时获取 min、max、avg 等结果。

语法如下：

GET /items/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "category": "手机"
          }
        },
        {
          "range": {
            "price": {
              "gte": 300000
            }
          }
        }
      ]
    }
  }, 
  "size": 0, 
  "aggs": {
    "brand_agg": {
      "terms": {
        "field": "brand",
        "size": 20
      },
      "aggs": {
        "stats_meric": {
          "stats": {
            "field": "price"
          }
        }
      }
    }
  }
}

query 部分就不说了，我们重点解读聚合部分语法。

可以看到我们在 brand_agg 聚合的内部，我们新加了一个 aggs 参数。这个聚合就是 brand_agg 的子聚合，会对 brand_agg 形成的每个桶中的文档分别统计。

stats_meric：聚合名称，自定义
- stats：聚合类型，stats 是 metric 聚合的一种
  - field：聚合字段，这里选择 price，统计价格

由于 stats 是对 brand_agg 形成的每个品牌桶内文档分别做统计，因此每个品牌都会统计出自己的价格最小、最大、平均值。

结果如下：

在这里插入图片描述

另外，我们还可以让聚合按照每个品牌的价格平均值排序：

在这里插入图片描述

3.1.4 总结

aggs 代表聚合，与 query 同级，此时 query 的作用是限定聚合的文档范围。

聚合必须的三要素：

聚合名称
聚合类型
聚合字段

聚合可配置属性有：

size：指定聚合结果数量
order：指定聚合结果排序方式
field：指定聚合字段

3.2 RestClient实现聚合

可以看到在 DSL 中，aggs 聚合条件与 query 条件是同一级别，都属于查询 JSON 参数，因此依然是利用 request.source() 方法来设置。

不过聚合条件的要利用 AggregationBuilders 这个工具类来构造。DSL 与 JavaAPI 的语法对比如下：

在这里插入图片描述

聚合结果与搜索文档同一级别，因此需要单独获取和解析。具体解析语法如下：

在这里插入图片描述

完整代码如下：

@Test
void testAgg() throws IOException {
    // 1.创建Request
    SearchRequest request = new SearchRequest("items");
    // 2.准备请求参数
    BoolQueryBuilder bool = QueryBuilders.boolQuery()
            .filter(QueryBuilders.termQuery("category", "手机"))
            .filter(QueryBuilders.rangeQuery("price").gte(300000));
    request.source().query(bool).size(0);
    // 3.聚合参数
    request.source().aggregation(
            AggregationBuilders.terms("brand_agg").field("brand").size(5)
    );
    // 4.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 5.解析聚合结果
    Aggregations aggregations = response.getAggregations();
    // 5.1.获取品牌聚合
    Terms brandTerms = aggregations.get("brand_agg");
    // 5.2.获取聚合中的桶
    List<? extends Terms.Bucket> buckets = brandTerms.getBuckets();
    // 5.3.遍历桶内数据
    for (Terms.Bucket bucket : buckets) {
        // 5.4.获取桶内key
        String brand = bucket.getKeyAsString();
        System.out.print("brand = " + brand);
        long count = bucket.getDocCount();
        System.out.println("; count = " + count);
    }
}