ElasticSearch - 解决ES的深分页问题 (游标 scroll)

最新推荐文章于 2025-06-12 13:32:32 发布

guaw007

最新推荐文章于 2025-06-12 13:32:32 发布

阅读量3.4w

点赞数 6

CC 4.0 BY-SA版权

分类专栏： ElasticSearch 文章标签： ElasticSearch 游標 scroll 深分頁

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40341116/article/details/80821655

ES为了避免深分页，不允许使用分页(from&size)查询10000条以后的数据，因此如果要查询第10000条以后的数据，要使用ES提供的 scroll(游标) 来查询
- 假设取的页数较大时(深分页)，如请求第20页，Elasticsearch不得不取出所有分片上的第1页到第20页的所有文档，并做排序，最终再取出from后的size条结果作爲最终的返回值
- 假设你有16个分片，则需要在coordinate node彙总到 shards* (from+size)条记录，即需要16*(20+10)记录后做一次全局排序
- 所以，当索引非常非常大(千万或亿)，是无法使用from + size 做深分页的，分页越深则越容易OOM，即便不OOM，也很消耗CPU和内存资源
- 因此ES使用index.max_result_window:10000作爲保护措施，即默认 from + size 不能超过10000，虽然这个参数可以动态修改，也可以在配置文件配置，但是最好不要这麽做，应该改用ES游标来取得数据
scroll游标原理
- 可以把 scroll 理解爲关系型数据库里的 cursor，因此，scroll 并不适合用来做实时搜索，而更适用于后台批处理任务，比如群发
- scroll 具体分爲初始化和遍历两步
  - 初始化时将所有符合搜索条件的搜索结果缓存起来，可以想象成快照
  - 在遍历时，从这个快照里取数据
  - 也就是说，在初始化后对索引插入、删除、更新数据都不会影响遍历结果
- 游标可以增加性能的原因，是因为如果做深分页，每次搜索都必须重新排序，非常浪费，使用scroll就是一次把要用的数据都排完了，分批取出，因此比使用from+size还好
具体实例
- 初始化
  - 请求
    - 注意要在URL中的search后加上scroll=1m，不能写在request body中，其中1m表示这个游标要保持开启1分钟
    - 可以指定size大小，就是每次回传几笔数据，当回传到没有数据时，仍会返回200成功，只是hits裡的hits会是空list
    - 在初始化时除了回传_scroll_id，也会回传前100笔(假设size=100)的数据

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。