Istio数据平面故障排查与控制平面性能调优
1. 数据平面故障排查
在对比客户端和服务器的成功率时,会发现存在差异。服务器报告的成功率为100%,这是因为Envoy代理将下游终止请求的响应代码标记为0,此值不属于5xx响应,因此不计入失败率。而客户端将请求标记为正确的状态代码504(“网关超时”),所以该请求被计入失败请求。由此可知,客户端报告的成功率才是正确的。当失败率达到20% - 30%时,就需要立即关注了。
1.1 使用Prometheus查询受影响的Pod
当Grafana仪表盘无法提供足够详细的信息时,可以直接查询Prometheus。具体操作步骤如下:
1. 打开Prometheus仪表盘,执行以下命令:
$ kubectl -n prometheus port-forward \
svc/prom-kube-prometheus-stack-prometheus 9090
- 查询满足以下条件的指标:
- 由目标报告的请求。
- 目标服务为catalog服务的请求。
- 响应标志为DC(下游连接终止)的请求。
查询语句如下:
sort_desc(sum(irate(
istio_requests_total{
reporter="destination",
destination_service=~"ca
超级会员免费看
订阅专栏 解锁全文

45

被折叠的 条评论
为什么被折叠?



