rejected execution of processing of [649786534][indices:data/write/bulk[s][p]]

Elasticsearch线程池过载问题解决

原创于 2024-10-12 20:31:37 发布 · 766 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#运维

ES 专栏收录该内容

68 篇文章

订阅专栏

关键错误信息

rejected execution of processing of [649786534][indices:data/write/bulk[s][p]]:
- 这表示在处理批量写入请求时，Elasticsearch拒绝了执行。具体来说，这个请求涉及到索引数据的写入操作。
es_rejected_execution_exception:
- 这是Elasticsearch抛出的异常，表示由于线程池已满，无法接受新的请求。通常发生在高负载情况下。
active threads = 200, queued tasks = 200:
- 这表明当前线程池中有200个活动线程，并且有200个任务在排队等待执行。线程池的容量已达到极限。
queue capacity = 200:
- 线程池的队列容量设置为200，这意味着一旦达到这个数量，新的请求将被拒绝。
succeeded at retry 11: task_id-1647:
- 这表明在进行重试时，第11次尝试成功，但这并不能解决根本问题。

可能的原因

高负载: Elasticsearch节点可能正在处理大量的并发请求，导致线程池和队列都达到了最大容量。
配置不当: 线程池的配置可能不适合当前的工作负载，导致无法处理所有请求。
资源限制: 系统可能缺乏足够的CPU或内存资源来处理当前的负载。
慢查询或写入: 某些查询或写入操作可能非常耗时，导致线程池中的线程被占用，无法处理新的请求。

解决步骤

增加线程池容量:
- 您可以通过修改Elasticsearch的配置文件（通常是elasticsearch.yml）来增加线程池的大小。例如：
```
thread_pool.write.size: 10
thread_pool.write.queue_size: 500
```
监控资源使用情况:
- 使用监控工具（如Elasticsearch的监控功能或Grafana）来查看CPU和内存的使用情况，确保系统资源充足。
优化查询和索引:
- 检查并优化当前的查询和索引操作，减少对资源的需求。避免复杂的聚合查询，尽量使用更高效的索引策略。
增加节点:
- 如果集群负载过高，考虑增加更多的节点来分散负载。
检查慢查询:
- 使用Elasticsearch的慢查询日志功能，识别并优化慢查询。
重启服务:
- 在某些情况下，重启Elasticsearch服务可能会帮助清理状态并恢复正常操作。
查看详细日志:
- 查看Elasticsearch的详细日志，以获取更多关于错误的信息和上下文。

通过这些步骤，您应该能够诊断并解决Elasticsearch的线程池过载问题。如果问题依然存在，可能需要进一步分析和优化。

curl $(kubectl -n qfusion get svc elasticsearch-logging --no-headers | awk '{print $3}'):9200/_cat/indices &> /tmp/"$(date '+%Y-%m-%d %H:%M:%S')"elasticsearch-check.txt

awk '{print $3}' elasticsearch-check1.txt | sort -t '.' -k 5,5n -k 7,7n -k 9,9n > sorted_output1.txt

curl $(kubectl -n qfusion get svc elasticsearch-logging --no-headers | awk '{print $3}'):9200/_cat/_cat/shards