ES查询性能调优实践

本文分享了对ES查询性能优化的过程和经验,包括拆分索引、字段拉平、减少模糊匹配、使用日期字段搜索范围和利用filter过滤器。通过这些方法,将查询耗时从分钟级降低到了毫秒级,显著提升了系统响应速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、概述

本文简要描述ES查询性能的优化过程。忽略很多细节,其实整个过程并不顺利,因为并没有一个明确的指引,教你怎么做就能让性能大幅提升。很多时候不同业务有不同的场景,还是需要自己摸索一番。比如用filter过滤取代query查询,明明官方文档说filter速度更快。但应用到我们业务来,一开始却没有明显效果。经过反复测试,发现虽然filter可以省略计算分数的环节,但我们的业务查询场景,一次返回数据量不会很多,最大的瓶颈不在于打分,而在于range过滤和排序。可是range过滤和排序,这方面在网上却很少被提及。所以还是要自己根据业务场景多思考多验证。 一开始优化效果很突出,耗时从100秒一下子降低到10秒以内。但越往后其实越难做。好比从10分考到60分不容易,但90分考到95分就更加困难。 我们自己定的优化目标是1秒,是达到效果了。

2、ES查询性能优化效果

优化前,随便一个ES查询耗时就高达170秒,接近3分钟。

注意上面的ES查询语句还不是最复杂的,还可以加上qua搜索、关键词模糊搜索,再把日期范围拉长,再加上日期排序。无法想像,耗时会变得多么惨不忍睹,简直要变成离线查询了。

可实际上,yiya页面是在线用户进行实时查询,所以这么高的耗时是不能忍受的,需要优化。那么,数据量有上亿,耗时优化到多少才合适呢?作为一个实时接口,能不能做到1秒内ES查询返回结果呢?

经过优化,ES查询耗时从之前的动辄3分钟,已经变成毫秒级了。

3、ES查询性能调优

3.1 拆分索引

ES能存千亿数据,不表示你可以在匹配到千亿数据时还能秒级返回。拆分索引是指你在搜索时,必须尽量缩小搜索的数据集范围。

  1. 按照数据源拆分,每个数据源独立索引。
  2. 按照时间拆分,每月建索引。

原先是按照数据源天然地分开索引。但日积月累,单个数据源的数据也日益膨胀,月新增一亿条数据。所以要按照时间拆分,把单个数据源按照年月进一步地拆分。

3.2 字段拉平

原先是把几个搜索字段都放在extra_info里面,导致只能在extra_info进行搜索。这带来两个问题:

  1. extra_info字段巨大,查询性能很低。
  2. 由于extra_info字段是黑盒,只能在里面进行模糊匹配,性能进一步降低。

优化后,把搜索字段全部拉平到上一层,不再从extra_info字段进行查询。

3.3 减少模糊匹配

模糊匹配耗时会随数据量线性增长,尽量使用match匹配(有索引),避免使用模糊匹配(wildcard)。 跟yiya业务方沟通过,qua字段的搜索没有必要是模糊搜索,所以修改为精确匹配。 但业务方要求关键词搜索必须是模糊搜索。不过即使模糊匹配,也尽量避免左模糊这样的模式匹配,资源消耗严重。可以使用match进行分词搜索。

3.4 使用日期字段搜索范围

原先ES的日期date_created字段是用字符串存储。

但对字符串的字段类型进行range过滤并不高效。 字符串范围适用于一个基数较小的字段,一个唯一短语个数较少的字段。你的唯一短语数越多,搜索就越慢。 数字和日期字段的索引方式让他们在计算范围时十分高效。但对于字符串来说却不是这样。为了在字符串上执行范围操作,Elasticsearch 会在这个范围内的每个短语执行 term 操作。这比日期或数字的范围操作慢得多。 优化后,date_created字段改成日期类型。

3.5 使用过滤器上下文

原先使用的是query查询子句,优化后改成filter过滤器。 query查询子句用于回答“这个文档与此子句相匹配的程度”,而filter过滤器子句用于回答“这个文档是否匹配这个子句”,Elasticsearch只需要回答“是”或“否”,不需要为过滤器子句计算相关性分数,而且过滤器结果可以缓存。 查询在Query查询上下文和Filter过滤器上下文中,执行的操作是不一样的:

  1. 查询上下文: 在查询上下文中,查询会回答这个问题——“这个文档匹不匹配这个查询,它的相关度高么?” 如何验证匹配很好理解,如何计算相关度呢?ES中索引的数据都会存储一个_score分值,分值越高就代表越匹配。另外关于某个搜索的分值计算还是很复杂的,因此也需要一定的时间。 查询上下文 是在 使用query进行查询时的执行环境,比如使用search的时候。
  2. 过滤器上下文: 在过滤器上下文中,查询会回答这个问题——“这个文档匹不匹配?” 答案很简单,是或者不是。它不会去计算任何分值,也不会关心返回的排序问题,因此效率会高一点。 过滤上下文 是在使用filter参数时候的执行环境,比如在bool查询中使用Must_not或者filter。 另外,过滤器上下文中,查询的结果可以被缓存。

filter速度要快于query,filter是不计算相关性的,同时可以cache。所以尽可能使用过滤器上下文(Filter)替代查询上下文(Query)。 因为业务场景并不需要计算相关性分数,所以改用filter。

后期我们会根据每个维度陆续写相关的测试文章,如果你有兴趣,请关注我们哦。

<think>嗯,用户想了解Elasticsearch性能化的最佳实践,包括整参数和索引策略。我需要根据提供的引用资料来整理回答。首先,引用[1]提到化需要多方面的措施,比如索引设计、硬件配置和查询。引用[2]详细讲了索引设计的关键策略,比如分片设置、冷热数据分离和索引模板。引用[4]解释了倒排索引的重要性,分片数设置的建议。还有引用[3]提到缓存策略和监控的重要性。 我应该分几个部分来组织回答。首先是索引设计化,包括分片大小、冷热架构、索引模板和滚动管理。然后是硬件和参数配置,涉及内存、线程池、刷新间隔和合并策略。接下来是查询化,比如避免通配符、使用过滤上下文、分页控制和预索引。最后是维护与监控部分,包括缓存、定期维护和监控工具。 需要注意用户可能对分片设置的具体数值和合并策略的参数不太清楚,要给出具体的建议值。同时,要引用对应的文献,比如分片大小不超过50GB来自引用[2],冷热架构在引用[2]也有提到。线程池整在引用[3]可能涉及,但引用中没有直接说明,可能需要确认。不过根据现有资料,尽量关联正确的引用。 还要生成相关问题,可能需要从不同的化方面提问,比如分片策略、查询、硬件配置等。确保问题覆盖用户可能关心的其他方面。最后检查LaTeX格式是否正确,比如变量用$...$,独立公式用$$...$$,但当前内容中可能没有数学公式,所以暂时不需要处理。回答结构要清晰,分点说明,帮助用户一步步理解化方法。</think>### Elasticsearch性能化最佳实践分步说明 #### 一、索引设计化 1. **分片策略** - 单分片数据量控制在$20GB-50GB$,避免分片过大影响查询性能[^2] - 索引创建时预定义分片数,遵循公式:$$总分片数 = \lceil 数据总量/40GB \rceil$$[^4] - 采用`冷热数据分离架构`,热节点使用SSD存储高频访问数据 2. **索引结构化** - 禁用非必要字段的`_source`和`_all`元数据字段[^4] - 对数值型字段使用`doc_values`替代fielddata ```json PUT my_index/_mapping { "properties": { "price": { "type": "integer", "doc_values": true } } } ``` #### 二、硬件与参数配置 1. **内存管理** - JVM堆内存设置为物理内存的50%,不超过32GB[^3] - 设置`indices.breaker.total.limit`为70%堆内存 2. **线程池** ```yaml thread_pool: write: size: 4 queue_size: 1000 search: size: 8 queue_size: 2000 ``` 根据CPU核心数动态整线程池参数[^1] 3. **写入化参数** - 增大`refresh_interval`至30s-60s - 设置`index.translog.durability`为async异步提交[^2] #### 三、查询性能化 1. **查询语句规范** - 避免使用`wildcard`通配符查询,改用ngram分词[^4] - 对范围查询使用`range`替代`script`脚本[^2] - 使用`filter`上下文替代query上下文,利用bitset缓存[^3] 2. **分页化** - 深度分页使用`search_after`替代`from/size` - 设置`max_result_window`限制返回条数 #### 四、维护与监控 1. **缓存策略** - 开启`query cache`和`request cache` - 定期清除不再使用的索引缓存 2. **段合并化** - 设置`index.merge.policy.max_merged_segment`为5GB - 整`max_thread_count`为CPU核数的50%[^2]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值