Elasticsearch大文件检索性能提升20倍实践（干货）_elasticsearch 查询优化

2401_84247505

已于 2024-04-12 04:37:14 修改

阅读量2.1k

点赞数 22

分类专栏： 2024年程序员学习文章标签： elasticsearch jenkins 大数据

于 2024-04-12 04:37:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_84247505/article/details/137661787

版权

3、问题排查与定位

步骤1：限定返回记录条数。不提供直接访问末页的入口。

baidu，360，搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式：
通过点击上一下、下一页逐页访问。
这里写图片描述
这个从用户的角度也很好理解，搜索引擎返回的前面都是相关度最高的，也是用户最关心的信息。

Elasticsearch的默认支持的数据条数是10000条，可以通过post请求修改。

最终，本步骤将支持ES最大返回值10000条数据，每页10条，也就是共显示1000页数据。

步骤2,from size机制问题，大于设定页就会慢

【from + size机制】：当Elasticsearch响应请求时，它必须确定docs的顺序，排列响应结果。如果请求的页数较少（假设每页10个docs）, Elasticsearch不会有什么问题，但是如果页数较大时，比如请求第100页，Elasticsearch不得不取出第1页到第100页的所有docs，再去除第1页到第99页的docs，得到第100页的docs。

【scroll机制】：相对于from和size的分页来说，使用scroll可以模拟一个传统数据的游标，记录当前读取的文档信息位置。这个分页的用法，不是为了实时查询数据，而是为了一次性查询大量的数据（甚至是全部的数据）。

因为这个scroll相当于维护了一份当前索引段的快照信息，这个快照信息是你执行这个scroll查询时的快照。在这个查询后的任何新索引进来的数据，都不会在这个快照中查询到。但是它相对于from和size，不是查询所有数据然后剔除不要的部分，而是记录一个读取的位置，保证下一次快速继续读取。

from+size方式以及scroll方式优缺点对比：

1）对于from+size方式：当结果足够大的时候，会大大加大内存和CPU的消耗。但，该方式使用非常方便。

2）对于scroll方式：当结果足够大的时候， scroll 性能更佳。但是不灵活和 scroll_id 难管理问题存在。

【from网络】个人测试：当结果足够大的时候产生 scroll_id

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。