简介: Socket Tracer定位是传输层(Socket&TCP)的指标采集工具,通过补齐网络监控的这部分盲区,来达到快速界定网络问题的目标。
作者 | 四忌
来源 | 阿里技术公众号
一 背景
随着软件应用的集群化、容器化、微服务化,产品的稳定性越来越依赖网络。现有的专有云和一体机产品,部署在裸机,从硬件服务器、交换机到os都是不可靠的,且监控盲区较多,其中网络是重灾区。对于网络不稳定导致的中间件链接超时、设备掉线、视频推流卡顿等问题,缺乏有效的网络层监控指标定界问题。一旦现场不存在,由网络引发的问题很难定位。现有的网络监控方案,都集中在网卡维度做流量、错包等指标统计,粒度过粗,只有从Socket和TCP连接维度,监控socket缓存状态,采集TCP建连、断开、实时流量、延迟、重传等信息,才可以最直接的反映业务的网络状态。
二 目标
现有的网络监控工具如 ss、netstat 等,可以显示服务器当前 Socket 状态快照,在问题现场可以有效的辅助我们排查问题。当现场不存在,我们希望能有工具能保存历史网络状态。然而单纯记录历史 Socket 五元组信息,在复杂拓扑场景是不够的,因为IP很可能是动态的,还须将当前时刻的 Socket 连接和业务属性(Pod Name、设备身份...)关联,才能达到还原问题现场,快速界定故障域的目的。
1 典型场景
- 集群中间件访问超时问题定界。
- 数据采集丢包问题定界:例如设备侧声称发包,但网关没有收到,现场不在了,互相扯皮。
- 设备连云链路检测。
- 视频直播卡顿问题定界。
2 能力综述
Socket维度信息采集
- 流量(tx/rx)、延迟(srtt),待重传包数量、总重传次数、收发队列长度,Accept队列长度。
- TCP 生命周期监控:监听TCP Close事件,统计连接时长,收发包总字节数。
- TCP Reset异常监控:收到或者发送Reset的异常,及异常时刻的TCP State。
云原生监控方案适配
- 现有的netstat、ss等网络信息统计工具,无法做到跨network namespce的socket信息统计。在云原生环境使用不便。需要做到监控k8s集群所有节点,及节点上所有Pod的Socket状态。
- 采集数据指标化,支持对接 Prometheus 的 Exporter 接口。
- 支持指标推送到 VictoriaMetrics。
指标选取原理
TCP的指标有很多,为什么采集上述的指标信息,出发点是希望找到可以反映应用程序状态和网络连通状态指标,如果有其它指标采集建议也欢迎留言。下面展开分析下上述指标的采集原因:
1)TCP Retransmit
包重传的超时时间是RTO,通常是200ms左右,当我们观察到一段时间出现了TCP包重传,后续又恢复正常了&#x