Istio 数据平面与控制平面故障排查及性能调优
1. 数据平面故障排查
在对比客户端和服务器的成功率时,会发现存在差异。服务器报告的成功率为 100%,这是因为 Envoy 代理将下游终止请求的响应代码标记为 0,此值不属于 5xx 响应,因此不计入失败率。而客户端则将请求标记为正确的 504 状态码(“网关超时”),所以该请求会被计入失败请求。由此可知,客户端报告的成功率才是正确的。当失败率达到 20% - 30% 时,就需要立即关注了。
1.1 使用 Prometheus 查询受影响的 Pod
当 Grafana 仪表板无法提供足够详细的信息时,可以直接查询 Prometheus。以下是具体操作步骤:
1. 打开 Prometheus 仪表板:
$ kubectl -n prometheus port-forward \
svc/prom-kube-prometheus-stack-prometheus 9090
- 查询满足以下条件的指标:
- 由目标报告的请求。
- 目标服务为 catalog 服务的请求。
- 响应标志为 DC(下游连接终止)的请求。
sort_desc(sum(irate(
istio_requests_total{
reporter="destination",
destination_servic
超级会员免费看
订阅专栏 解锁全文
1335

被折叠的 条评论
为什么被折叠?



