Connection reset by peer原因分析定位

探讨WebSocket通信中出现的TCP零窗口问题,分析nginx频繁重置连接的原因,揭示客户端处理能力不足导致的数据积压与TCP零窗口状态,最终通过改进客户端处理逻辑解决异常。

背景
在这里插入图片描述

client和server通过websocket协议通信,长连接保活,server前有nginx做反向代理,client和server是多对多关系;

server端定时给client下发任务,client执行任务并将结果上报给server,client还会定时给server发送心跳保活连接。

现象
系统运行一段时间之后,nginx上error日志频繁报错,如下:

2020/04/15 18:02:51 [error] 374#0: *1917238 send() failed (104: Connection reset by peer) while proxying upgraded connection, client: 172.28.25.222, server: localhost, request: "GET /ws/358/5c5d8dafac7f4586a751ff4c68fb2999/websocket HTTP/1.1", upstream: "http://172.28.72.77:8899/ws/358/5c5d8dafac7f4586a751ff4c68fb2999/websocket", host: "172.28.72.114:8443"
2020/04/15 18:03:03 [error] 374#0: *1913375 send() failed (104: Connection reset by peer) while proxying upgraded connection, client: 172.28.25.214, server: localhost, request: "GET /ws/453/60c9a5af41374f9dbaad4d5444d25c96/websocket HTTP/1.1", upstream: "http://172.28.72.77:8888/ws/453/60c9a5af41374f9dbaad4d5444d25c96/websocket", host: "172.28.72.114:8443"

nginx端频繁重置连接,导致连接不可用,通信异常

分析
抓包
在这里插入图片描述

119是client,117是nginx

从图中看出client给服务端发送了很多 tcp zero window的包,说明客户端已经处理不过来了,告诉对端,不要给我发包了,我不行了;

同时,服务端会定期给客户端发送tcp keepalive链路保活的包,在发送多次zero window后仍然没有有效数据发送,服务端RESET关闭连接,导致服务异常;

在服务器netstat发现如下现象:

client客户端

[apprun@vhost18 ~]$ netstat -tnulpao|grep 443
tcp6  362708      0 172.28.72.119:63132     172.28.72.117:443       ESTABLISHED 32278/java           off (0.00/0/0)
tcp6       0      0 172.28.72.119:63192     172.28.72.117:443       ESTABLISHED 32278/java           off (0.00/0/0)

nginx server服务端

[apprun@newvhost02 ~]$ netstat -anop|grep 443
tcp        0      0 0.0.0.0:443             0.0.0.0:*               LISTEN      13307/nginx: worker  off (0.00/0/0)
tcp        0 108528 172.28.72.117:443       172.28.72.119:63132     ESTABLISHED 13308/nginx: worker  probe (0.16/0/0)

客户端recev-Q阻塞,表明客户端处理不过来,操作系统接收缓冲区阻塞,程序没有及时消费掉;

nginx服务端send-Q阻塞,不能及时发出去,表明下游程序收不过来,和上述客户端现象表现一致;

同时客户端的系统资源也很充裕,没有任何瓶颈。

解决
查看客户端处理代码逻辑,发现单线程处理,效率低下,改成异步线程池提交处理的方式,问题解决。

总结
在这里插入图片描述

linux操作系统的上述三个参数,跟此次现象有关:

net.ipv4.tcp_keepalive_time = 1800
net.ipv4.tcp_keepalive_intvl = 30
net.ipv4.tcp_keepalive_probes = 5

tcp_keepalive_time,在TCP保活打开的情况下,最后一次数据交换到TCP发送第一个保活探测消息的时间,即允许的持续空闲时间。默认值为7200s(2h)。

tcp_keepalive_intvl,保活探测消息的发送频率。默认值为75s。

发送频率tcp_keepalive_intvl乘以发送次数tcp_keepalive_probes,就得到了从开始探测直到放弃探测确定连接断开的时间,大约为11min。

tcp_keepalive_probes,TCP发送保活探测消息以确定连接是否已断开的次数。默认值为9(次)。

从上述抓包和操作系统三个参数配置,并没有通过包和操作系统参数值对应上,当时环境存在多个client和多个server,抓包数量有限,但是综合情况来看RESET应该是跟这三个操作系统参数有关,但本质原因还是客户端处理不过来,导致数据积压,TCP零窗口。

### 导致 'connection reset by peer' 错误的原因 #### 进程异常终止 当对端进程崩溃时,可能会触发 `connection reset by peer` 错误。这种情况通常发生在应用程序意外退出或因未处理的异常而停止运行的情况下[^2]。 #### 主动断开连接设置 如果服务器配置了特定参数使得其能够立即中断不再需要的连接,则也可能引发此错误消息。例如,在某些情况下,调用 `SetLinger(0)` 函数会使套接字在关闭时不等待待发数据完成传输而是立刻重置连接。 #### 负载均衡器的影响 TCP Keepalive 探测机制用于检测长时间闲置但仍保持打开状态的连接是否依然存活。然而,在经过一段时间(默认为两小时)之后发出探测请求前,若目标连接已被IPVS(Linux内核中的一个实现虚拟服务器的技术)删除或标记为不活跃,则会收到对方返回的RST包从而报告“Connection reset by peer”。这是因为尽管客户端和服务端都认为连接存在并有效,但实际上它已经在更高层次上被切断了[^5]。 #### 客户端与服务端同步问题 有时即使看起来简单的场景也会带来复杂的结果;比如本地机器尝试访问远程虚拟环境期间偶尔遭遇此类故障可能是由于两者间缺乏良好协调所致。这表明即便是在相对封闭可控的小型测试环境中也难以完全排除潜在风险因素的存在[^3]。 #### 服务不可达 另外一种常见情况就是简单粗暴的服务端失效情形——即所谓的“服务端挂掉”,这也同样可以解释为什么会出现这个提示信息。对于CDN运营商而言,这类看似初级却又容易被人忽视的问题反而更值得警惕[^4]。 ```python import socket def check_connection(host, port): try: with socket.create_connection((host, port), timeout=5) as sock: print(f"Successfully connected to {host}:{port}") except Exception as e: print(f"Failed to connect: {e}") check_connection('example.com', 80) ``` 上述代码展示了如何通过Python脚本来验证给定主机和端口之间的基本可达性。虽然这不是直接针对解决`connection reset by peer`的方法,但在排查过程中确认能否成功建立初步联系是非常重要的一步。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值