ElasticSearch深度分页问题如何解决

本文探讨了Elasticsearch在大数据集上的深度分页问题,介绍了ScrollAPI、SearchAfter等解决方法,并对比了from+size、scroll和search_after三种分页方式的优缺点,强调了性能优化和场景选择的重要性。

概述

Elasticsearch 的深度分页问题是指在大数据集上进行大量分页查询时可能导致的性能下降和资源消耗增加的情况。这种情况通常发生在需要访问大量数据的情形下,比如用户进行长时间滚动查看或者需要遍历大量数据的操作。
深度分页问题通常会导致性能下降的原因有以下几点:

  1. 数据的大量跳过和读取:在深度分页查询中,Elasticsearch 需要跳过大量的文档记录才能到达目标页,这会导致大量的 IO 操作和资源消耗。
  2. 分布式搜索的成本:在分布式环境下,合并和排序大量数据的成本会很高。
  3. 数据热点:深度分页可能导致部分节点负载过高,增加了数据热点的风险。

解决方法

  1. 使用 Scroll API:Elasticsearch 提供了 Scroll API 来支持大数据集的深度分页查询。使用 Scroll API 可以创建一个快照,允许在保持搜索上下文的情况下连续检索大量数据,而不需要重新执行原始查询。这样可以避免深度分页带来的性能问题。
  2. 使用游标分页:类似于 Scroll API,游标分页也可以用于大数据集的分页查询。它允许客户端在多个请求之间保持打开的搜索上下文,从而避免了深度分页的性能问题。
  3. 基于数据模型的优化:考虑使用基于数据模型的优化方法,比如预聚合、数据摘要等方式,来提前计算和存储一些聚合结果,从而减少深度分页查询的计算成本。
  4. 使用游标/分页组合:结合游标和分页的方式,可以在大数据集上进行分页操作而不至于影响性能。
  5. 优化查询需求:考虑是否真正需要进行大数据集的深度分页操作,是否可以通过其他途径满足业务需求,从而避免深度分页问题。
  6. 基于数据模型的优化:可以考虑对数据模型进行优化,预先计算和存储一些聚合结果或摘要信息,从而减少深度分页查询的计算成本。
  7. 使用 Search After:Search After 是一种用于获取某个特定文档之后的文档的方式,可以结合排序字段的值来实现分页操作,避免了跳过大量文档记录的性能开销。
  8. 避免深度分页:在设计应用程序时,尽量避免需要深度分页的场景,可以通过其他方式满足业务需求,比如聚合查询、更精确的过滤条件等。
  9. 优化索引设计:合理设计索引结构、字段映射、分片设置等,可以提高搜索性能,从而减轻深度分页带来的性能压力。
  10. 限制每页返回的文档数量:在进行分页查询时,可以限制每页返回的文档数量,避免一次性返回大量数据,从而减少性能消耗。
    总的来说,针对 Elasticsearch 的深度分页问题,需要综合考虑数据访问方式、业务需求以及 Elasticsearch 提供的查询和分页机制,选择合适的方式来解决深度分页问题,并且在实际应用中需要进行充分的性能测试和优化。
    在Elasticsearch中进行深度分页操作是一种常见的需求,但是如果使用传统的分页方式会比较耗时,可能会导致性能问题。为了解决这个问题,Elasticsearch提供了一些深度分页方案,主要包括以下几种:
    深度分页方式from + size+深度分页之scroll+search_after参数

深度分页方式from + size

es 默认采用的分页方式是 from+ size 的形式,在深度分页的情况下,这种使用方式效率是非常低的,比如我们执行如下查询

GET /student/student/_search
{
    "query":{
        "match_all": {}
    },
    "from":5000,
    "size":10
}

意味着 es 需要在各个分片上匹配排序并得到5010条数据,协调节点拿到这些数据再进行排序等处理,然后结果集中取最后10条数据返回。
我们会发现这样的深度分页将会使得效率非常低,因为我只需要查询10条数据,而es则需要执行from+size条数据然后处理后返回。
其次:es为了性能,限制了我们分页的深度,es目前支持的最大的 max_result_window = 10000;也就是说我们不能分页到10000条数据以上。
例如:
在这里插入图片描述在这里插入图片描述

from + size <= 10000所以这个分页深度依然能够执行。
继续看上图,当size + from > 10000;es查询失败,并且提示
Result window is too large, from + size must be less than or equal to: [10000] but was [1001]
接下来看还有一个很重要的提示
See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level setting
有关请求大数据集的更有效方法,请参阅滚动api。这个限制可以通过改变[索引]来设置。哦呵,原来es给我们提供了另外的一个API scroll。难道这个 scroll 能解决深度分页问题?

深度分页之scroll

在es中如果我们分页要请求大数据集或者一次请求要获取较大的数据集,scroll都是一个非常好的解决方案。
使用scroll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来scroll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的视图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的。每次发送scroll请求,我们还需要指定一个scroll参数,指定一个时间窗口,每次搜索请求只要在这个时间窗口内能完成就可以了。
一个滚屏搜索允许我们做一个初始阶段搜索并且持续批量从Elasticsearch里拉取结果直到没有结果剩下。这有点像传统数据库里的cursors(游标)。
滚屏搜索会及时制作快照。这个快照不会包含任何在初始阶段搜索请求后对index做的修改。它通过将旧的数据文件保存在手边,所以可以保护index的样子看起来像搜索开始时的样子。这样将使得我们无法得到用户最近的更新行为。
scroll的使用很简单
执行如下curl,每次请求两条。可以定制 scroll = 5m意味着该窗口过期时间为5分钟。

GET /student/student/_search?scroll=5m
{
  "query": {
    "match_all": {}
  },
  "size": 2
}
{
  "_scroll_id" : "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAC0YFmllUjV1QTIyU25XMHBTck1XNHpFWUEAAAAAAAAtGRZpZVI1dUEyMlNuVzBwU3JNVzR6RVlBAAAAAAAALRsWaWVSNXVBMjJTblcwcFNyTVc0ekVZQQAAAAAAAC0aFmllUjV1QTIyU25XMHBTck1XNHpFWUEAAAAAAAAtHBZpZVI1dUEyMlNuVzBwU3JNVzR6RVlB",
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 6,
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "student",
        "_type" : "student",
        "_id" : "5",
        "_score" : 1.0,
        "_source" : {
          "name" : "fucheng",
          "age" : 23,
          "class" : "2-3"
        }
      },
      {
        "_index" : "student",
        "_type" : "student",
        "_id" : "2",
        "_score" : 1.0,
        "_source" : {
          "name" : "xiaoming",
          "age" : 25,
          "class" : "2-1"
        }
      }
    ]
  }
}

在返回结果中,有一个很重要的
_scroll_id
在后面的请求中我们都要带着这个 scroll_id 去请求。
现在student这个索引中共有6条数据,id分别为 1, 2, 3, 4, 5, 6。当我们使用 scroll 查询第4次的时候,返回结果应该为kong。这时我们就知道已经结果集已经匹配完了。
继续执行3次结果如下三图所示。

GET /_search/scroll
{
    "scroll":"5m",
    "scroll_id":"DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAC0YFmllUjV1QTIyU25XMHBTck1XNHpFWUEAAAAAAAAtGRZpZVI1dUEyMlNuVzBwU3JNVzR6RVlBAAAAAAAALRsWaWVSNXVBMjJTblcwcFNyTVc0ekVZQQAAAAAAAC0aFmllUjV1QTIyU25XMHBTck1XNHpFWUEAAAAAAAAtHBZpZVI1dUEyMlNuVzBwU3JNVzR6RVlB"
}

在这里插入图片描述
在这里插入图片描述

由结果集我们可以发现最终确实分别得到了正确的结果集,并且正确的终止了scroll。

search_after

from + size的分页方式虽然是最灵活的分页方式,但是当分页深度达到一定程度将会产生深度分页的问题。scroll能够解决深度分页的问题,但是其无法实现实时查询,即当scroll_id生成后无法查询到之后数据的变更,因为其底层原理是生成数据的快照。这时 search_after应运而生。其是在es-5.X之后才提供的。
search_after 是一种假分页方式,根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。为了找到每一页最后一条数据,每个文档必须有一个全局唯一值,官方推荐使用 _uid 作为全局唯一值,但是只要能表示其唯一性就可以。
为了演示,我们需要给上文中的student索引增加一个uid字段表示其唯一性。
执行如下查询:

GET /student/student/_search
{
    "query":{
        "match_all": {}
    },
    "size":2,
    "sort":[
    {
        "uid": "desc"
    }
    ]
}

结果集:
View Code
下一次分页,需要将上述分页结果集的最后一条数据的值带上。

GET /student/student/_search
{
  "query":{
    "match_all": {}
  },
  "size":2,
  "search_after":[1005],
  "sort":[
    {
      "uid": "desc"
    }
  ]
}

这样我们就使用search_after方式实现了分页查询。

三种分页方式比较

分页方式性能优点缺点场景
from + size灵活性好,实现简单深度分页问题数据量比较小,能容忍深度分页问题
scroll解决了深度分页问题无法反应数据的实时性(快照版本)维护成本高,需要维护一个 scroll_id海量数据的导出(比如笔者刚遇到的将es中20w的数据导入到excel)需要查询海量结果集的数据
search_after性能最好不存在深度分页问题能够反映数据的实时变更实现复杂,需要有一个全局唯一的字段连续分页的实现会比较复杂,因为每一次查询都需要上次查询的结果海量数据的分页
<think>嗯,用户想了解Elasticsearch深度分页查询Search_after,并且要求图文教程。首先,我得回忆一下Search_after的作用和适用场景。记得之前学的时候,Elasticsearch分页有from+size的方式,但深度分页时性能会下降,特别是数据量大的时候。Search_after应该是解决这个问题的。 那Search_after的原理是什么呢?应该是基于上一页的排序值来获取下一页的数据,避免深度翻页时的性能损耗。不过需要基于唯一的排序字段,比如时间戳或者_id,否则可能会有重复。要确保排序字段的值是唯一的,否则分页可能会出错。 接下来,用户可能需要具体的步骤和示例。应该分步骤讲解,先讲前置条件,比如索引创建和数据准备,然后讲如何第一次查询,获取search_after的值,再讲如何用这个值进行下一页的查询。同时要注意,使用Search_after时必须指定排序,而且排序字段要唯一,否则分页可能不准确。 可能还需要对比一下Search_after和Scroll API的区别,Scroll适合大量数据导出,而Search_after适合实时分页。另外,用户可能想知道Search_after的优缺点,比如不能跳页,只能逐页翻,但性能更好。 图文教程的话,可能需要插入一些示例代码和结果截图。虽然现在不能实际贴图,但可以用文字描述示例输出,比如第一次查询返回的数据和sort值,下一页查询使用search_after参数的情况。 还要注意用户可能遇到的常见问题,比如排序字段不唯一导致分页重复或遗漏,或者忘记添加排序条件。需要提醒用户确保排序字段的唯一性,比如使用_id作为第二排序字段。 最后,总结一下适用场景,比如移动端加载更多,或者需要深度分页但不需要跳页的情况。可能用户的实际应用场景是这样的,所以明确说明Search_after的适用性很重要。</think>Elasticsearch 深度分页查询 Search_after 图文教程(文字版) 一、为什么需要 Search_after? ![分页性能对比图] 传统分页(from+size)在深度分页时性能骤降,Search_after 通过游标机制实现高效深度分页,适合处理百万级数据的分页场景。 二、核心原理 1. 基于排序字段的值作为游标 2. 每次查询携带上一页最后一条的排序值 3. 避免全局排序,性能损耗稳定($O(1)$) 三、具体使用步骤 1. 前置条件:创建测试索引 ```json PUT /products { "mappings": { "properties": { "name": { "type": "text" }, "price": { "type": "double" }, "timestamp": { "type": "date" } } } } ``` 2. 首次查询(必须包含排序) ```json GET /products/_search { "size": 2, "sort": [ { "timestamp": "desc" }, { "_id": "asc" } // 确保排序唯一性 ] } ``` 响应示例: ```json { "hits": { "hits": [ { "_id": "1", "_source": { "name": "Phone", "price": 599.99 }, "sort": [1658800000000, "1"] }, { "_id": "2", "_source": { "name": "Laptop", "price": 1299.99 }, "sort": [1658700000000, "2"] } ] } } ``` 3. 后续查询使用 search_after ```json GET /products/_search { "size": 2, "sort": [ { "timestamp": "desc" }, { "_id": "asc" } ], "search_after": [1658700000000, "2"] // 使用上页最后记录的sort值 } ``` 四、注意事项(⚠️关键点) 1. 必须指定唯一性排序组合(推荐:业务字段 + _id) 2. 不能跳页查询,只能顺序翻页 3. 索引更新可能导致分页结果变化(实时性特征) 4. 需要客户端维护上下文状态 五、与 Scroll API 对比 | 特性 | Search_after | Scroll | |---------------------|------------------------|----------------------| | 实时性 | ✅ 实时 | ❌ 快照 | | 内存消耗 | 低 | 高 | | 适用场景 | 用户实时分页 | 大数据量导出 | | 最大返回 | 无限制 | 取决于设置 | 六、最佳实践 1. 组合排序字段示例: ```json "sort": [ { "create_time": "desc" }, { "score": "desc" }, { "_id": "asc" } ] ``` 2. 客户端实现逻辑: ``` 首次查询 → 保存sort值 → 下次请求携带search_after → 循环直到无结果 ``` 七、常见问题解决 1. 出现重复数据 → 检查排序字段唯一性 2. 分页中断 → 确保使用相同的排序条件 3. 性能下降 → 避免在text字段上排序 适用场景:移动端「加载更多」、日志分批处理、大数据量报表生成等需要深度分页但不需要跳页的场合。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

思静鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值