time_wait相关的一些问题

临安_大大白

已于 2022-02-26 20:49:26 修改

阅读量320

点赞数

文章标签：网络服务器 memcached

于 2022-02-26 18:42:18 首次发布

本文链接：https://blog.youkuaiyun.com/qq_35843514/article/details/123153730

版权

TCP的TIME_WAIT和CLOSE_WAIT状态在连接关闭过程中起关键作用，本文详细解释了它们的产生原因和过多时的影响，并提供了相应的解决方案。TIME_WAIT确保连接完全关闭和数据清除，而CLOSE_WAIT可能因服务端未及时关闭连接导致资源耗尽。解决方法包括调整系统参数、优化代码逻辑以及设置TCP连接超时等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

1、time_wait 产生原因（等待2MSL意义）：

保证TCP协议的全双工连接能够可靠关闭
保证这次连接的重复数据段从网络中消失

假设是客户端向服务端发起断开连接，为了保证客户端发送的最后一个ACK报文段能够到达服务器。因为这个ACK有可能丢失，从而导致处在LAST-ACK状态的服务器收不到对FIN-ACK的确认报文。服务器会超时重传这个FIN-ACK，接着客户端再重传一次确认，重新启动时间等待计时器。最后客户端和服务器都能正常的关闭。假设客户端不等待2MSL，而是在发送完ACK之后直接释放关闭，一但这个ACK丢失的话，服务器就无法正常的进入关闭连接状态。
防止“已失效的连接请求报文段”出现在本连接中。客户端在发送完最后一个ACK报文段后，再经过2MSL，就可以使本连接持续的时间内所产生的所有报文段都从网络中消失，使下一个新的连接中不会出现这种旧的连接请求报文段。

2、time_wait过多产生原因：

正常的TCP客户端连接在关闭后，会进入一个TIME_WAIT的状态，持续的时间一般在1-4分钟，对于连接数不高的场景，1-4分钟其实并不长，对系统也不会有什么影响，但如果短时间内（例如1s内）进行大量的短连接，则可能出现这样一种情况：客户端所在的操作系统的socket端口和文件描述符被用尽，系统无法再发起新的连接！

举例来说：假设每秒建立了1000个短连接（Web场景下是很常见的，例如每个请求都去访问memcached），设TIME_WAIT的时间是1分钟，则1分钟内需要建立6W个短连接，由于TIME_WAIT时间是1分钟，这些短连接1分钟内都处于TIME_WAIT状态，都不会释放，而Linux默认的本地端口范围配置是：net.ipv4.ip_local_port_range = 32768 61000不到3W，因此这种情况下新的请求由于没有本地端口就不能建立了。

3、time_wait过多解决方法：

可以改为长连接，但代价较大，长连接太多会导致服务器性能问题并且安全性也较差；
修改ipv4.ip_local_port_range，增大可用端口范围，但只能缓解问题，不能根本解决问题；
客户端机器打开tcp_tw_reuse和tcp_timestamps选项；
客户端机器打开tcp_tw_recycle和tcp_timestamps选项；
字面意思，销毁掉 TIME_WAIT。

4、close_wait产生原因？close_wait产生太多原因？close_wait太多解决方法

https://blog.youkuaiyun.com/weixin_43851782/article/details/116925584

4.1 close_wait产生原因：

比如是客户端要与服务端断开连接，先发一个FIN表示自己要主动断开连接了，服务端会先回一个ACK，这时表示客户端没数据要发了，但有可能服务端数据还没发完，所以要经历一个close_wait，等待服务端数据发送完，再回一个FIN和ACK。

4.2 close_wait产生太多原因：

close_wait 按照正常操作的话应该很短暂的一个状态，接收到客户端的fin包并且回复客户端ack之后，会继续发送FIN包告知客户端关闭关闭连接，之后迁移到Last_ACK状态。但是close_wait过多只能说明没有迁移到Last_ACK，也就是服务端是否发送FIN包，只有发送FIN包才会发生迁移，所以问题定位在是否发送FIN包。FIN包的底层实现其实就是调用socket的close方法，这里的问题出在没有执行close方法。说明服务端socket忙于读写。

4.3 close_wait太多解决方法：

代码层面做到
第一：使用完socket就调用close方法；
第二：socket读控制，当读取的长度为0时（读到结尾），立即close；
第三：如果read返回-1，出现错误，检查error返回码，有三种情况：INTR（被中断，可以继续读取），WOULDBLOCK（表示当前socket_fd文件描述符是非阻塞的，但是现在被阻塞了），AGAIN（表示现在没有数据稍后重新读取）。如果不是AGAIN，立即close
可以设置TCP的连接时长keep_alive_time还有tcp监控连接的频率以及连接没有活动多长时间被迫断开连接。