快速界定故障：Socket Tracer网络监控实践

阿里云云栖号

于 2021-08-03 13:55:30 发布

阅读量1.5k

点赞数

分类专栏：云栖号技术分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yunqiinsight/article/details/119348330

版权

简介： Socket Tracer定位是传输层(Socket&TCP)的指标采集工具，通过补齐网络监控的这部分盲区，来达到快速界定网络问题的目标。

作者 | 四忌

来源 | 阿里技术公众号

一背景

随着软件应用的集群化、容器化、微服务化，产品的稳定性越来越依赖网络。现有的专有云和一体机产品，部署在裸机，从硬件服务器、交换机到os都是不可靠的，且监控盲区较多，其中网络是重灾区。对于网络不稳定导致的中间件链接超时、设备掉线、视频推流卡顿等问题，缺乏有效的网络层监控指标定界问题。一旦现场不存在，由网络引发的问题很难定位。现有的网络监控方案，都集中在网卡维度做流量、错包等指标统计，粒度过粗，只有从Socket和TCP连接维度，监控socket缓存状态，采集TCP建连、断开、实时流量、延迟、重传等信息，才可以最直接的反映业务的网络状态。

二目标

现有的网络监控工具如 ss、netstat 等，可以显示服务器当前 Socket 状态快照，在问题现场可以有效的辅助我们排查问题。当现场不存在，我们希望能有工具能保存历史网络状态。然而单纯记录历史 Socket 五元组信息，在复杂拓扑场景是不够的，因为IP很可能是动态的，还须将当前时刻的 Socket 连接和业务属性（Pod Name、设备身份...）关联，才能达到还原问题现场，快速界定故障域的目的。

1 典型场景

集群中间件访问超时问题定界。
数据采集丢包问题定界：例如设备侧声称发包，但网关没有收到，现场不在了，互相扯皮。
设备连云链路检测。
视频直播卡顿问题定界。

2 能力综述

Socket维度信息采集

流量(tx/rx)、延迟(srtt)，待重传包数量、总重传次数、收发队列长度，Accept队列长度。
TCP 生命周期监控：监听TCP Close事件，统计连接时长，收发包总字节数。
TCP Reset异常监控：收到或者发送Reset的异常，及异常时刻的TCP State。

云原生监控方案适配

现有的netstat、ss等网络信息统计工具，无法做到跨network namespce的socket信息统计。在云原生环境使用不便。需要做到监控k8s集群所有节点，及节点上所有Pod的Socket状态。
采集数据指标化，支持对接 Prometheus 的 Exporter 接口。
支持指标推送到 VictoriaMetrics。

指标选取原理

TCP的指标有很多，为什么采集上述的指标信息，出发点是希望找到可以反映应用程序状态和网络连通状态指标，如果有其它指标采集建议也欢迎留言。下面展开分析下上述指标的采集原因：

1）TCP Retransmit

包重传的超时时间是RTO，通常是200ms左右，当我们观察到一段时间出现了TCP包重传，后续又恢复正常了&#x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。