最近经常收到业务方配置的ES查询延迟告警,同样的请求手动在Kibana控制台执行只需几十毫秒就返回结果。受影响的整个链路情况如下,php应用程序通过部署在ES集群各节点上的nginx访问ES请求查询数据。
查询延迟原因可能有2个方面的因素:
1、ES集群异常,ES应用故障或者集群节点主机故障。
- 首先通过查看上一篇配置的dashboard检测各节点系统指标以及ES性能指标在告警时段有无明显异常。排查问题时为了方便直接查看,针对搜索和索引请求相关的指标,构建了一个新图,直接对query,index,fetch,merge操作的时间进行rate计算,对query,index,fetch,merge操作次数进行increase计算,两者相除得到单个请求的平均操作耗时。若有异常,可以再查看之前的图表中具体的操作数和请求时间。并查看ES相关时间点的日志。
- 集群节点主机级别的问题主要通过观察node_exporter中的核心指标有无异常,包括CPU,内存,网络,TCP连接,上下问切换,磁盘容量及IO。
2、业务请求异常,业务请求量突增高于正常的水平。
业务上的