服务器网络连接突然暴增如何分析

最新推荐文章于 2025-12-12 16:47:26 发布

原创最新推荐文章于 2025-12-12 16:47:26 发布 · 217 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#服务器 #运维

当服务器的网络连接数突然从几百飙升到 25000，导致服务不可用时，这通常意味着某个服务或客户端出现了异常行为（如连接泄漏、DDoS 攻击、错误配置、死循环等）。要快速定位问题服务，可以按照以下步骤进行排查：

一、初步判断：确认是入站还是出站连接暴增

# 查看当前所有 TCP 连接数量及状态
ss -s
# 或
netstat -an | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

如果 ESTABLISHED 数量激增 → 很可能是正常业务连接堆积（比如后端响应慢，前端不断重试）。
如果 TIME_WAIT / CLOSE_WAIT 激增 → 可能是连接未正确释放（程序 bug 或资源不足）。

二、定位连接来源与目标

1.查看连接的远程 IP 和端口分布

# 查看连接最多的远程 IP
ss -tn | awk 'NR>1 {print $5}' | cut -d: -f1 | sort | uniq -c | sort -nr | head -20

# 查看本地监听端口的连接数（按本地端口聚合）
ss -tn | awk 'NR>1 {print $4}' | cut -d: -f2 | sort | uniq -c | sort -nr | head -20

如果某一个本地端口（如 8080、9090）连接数极高 → 该端口对应的服务很可能是“受害者”或“问题源”。
如果大量连接来自少数几个 IP → 可能是恶意攻击或某个客户端异常。
如果连接分散但都指向同一个后端服务 → 说明上游服务调用下游时未复用连接（连接池配置错误）。
2. 结合进程 ID 定位具体服务

# 查看每个进程打开的 TCP 连接数
lsof -iTCP -sTCP:ESTABLISHED | awk '{print $2}' | sort | uniq -c | sort -nr | head -10

# 或使用 ss + pid
ss -tnp | awk 'NR>1 {print $7}' | grep -o "pid=[0-9]*" | sort | uniq -c | sort -nr

然后根据 PID 查进程名：

ps -p <PID> -o pid,ppid,cmd,%mem,%cpu

三、结合日志和监控进一步分析

检查应用日志
查看高连接端口对应服务的日志，是否有异常请求、超时、频繁重试、未关闭连接等。
特别注意是否有短连接风暴（大量短生命周期连接）或连接未 close 的 warn/error。
检查连接池配置（如果是 Java/Go/Python 等服务）
是否设置了合理的最大连接数？
是否启用了 keep-alive？
HTTP 客户端是否每次都新建连接而不是复用？
使用 APM 或链路追踪（如 SkyWalking、Jaeger、Zipkin）
查看哪个服务的入口 QPS 异常升高或出口连接数暴增。
定位是调用方还是被调用方的问题。

四、临时缓解措施

限流：对异常 IP 或接口做限流（Nginx、iptables、API 网关）。
重启可疑服务：如果确认是某个服务连接泄漏，可临时重启。
调整内核参数（谨慎）：

# 增加可用端口范围（针对出站连接多）
echo 'net.ipv4.ip_local_port_range = 1024 65535' >> /etc/sysctl.conf
# 减少 TIME_WAIT 保持时间
echo 'net.ipv4.tcp_fin_timeout = 30' >> /etc/sysctl.conf
sysctl -p