CLOSE_WAIT状态的讨论

本文探讨了Socket编程中客户端程序遇到的CLOSE_WAIT状态问题,分析了其产生的原因,并提供了设置SO_REUSEADDR和SO_LINGER选项的具体解决方案。

不久前,我的Socket Client程序遇到了一个非常尴尬的错误。它本来应该在一个socket长连接上持续不断地向服务器发送数据,如果socket连接断开,那么程序会自动不断地重试建立连接。

有一天发现程序在不断尝试建立连接,但是总是失败。用netstat查看,这个程序竟然有上千个socket连接处于CLOSE_WAIT状态,以至于达到了上限,所以无法建立新的socket连接了。
为什么会这样呢?它们为什么会都处在CLOSE_WAIT状态呢?

CLOSE_WAIT状态的生成原因
首先我们知道,如果我们的Client程序处于CLOSE_WAIT状态的话,说明套接字是被动关闭的!
因为如果是Server端主动断掉当前连接的话,那么双方关闭这个TCP连接共需要四个packet:

Server  —>  FIN  —>  Client

Server  <—  ACK  <—  Client

这时候Server端处于FIN_WAIT_2状态;而我们的程序处于CLOSE_WAIT状态。

Server  <—  FIN  <—  Client

这时Client发送FIN给Server,Client就置为LAST_ACK状态。

Server  —>  ACK  —>  Client

Server回应了ACK,那么Client的套接字才会真正置为CLOSED状态。

我们的程序处于CLOSE_WAIT状态,而不是LAST_ACK状态,说明还没有发FIN给Server,那么可能是在关闭连接之前还有许多数据要发送或者其他事要做,导致没有发这个FIN packet。不管怎么样,我们必须防止类似情况再度发生!

首先,我们要保证原来的端口可以被重用,这可以通过设置SO_REUSEADDR套接字选项做到:
重用本地地址和端口
以前我总是一个端口不行,就换一个新的使用,所以导致让数千个端口进入CLOSE_WAIT状态。如果下次还发生这种尴尬状况,我希望加一个限定,只是当前这个端口处于CLOSE_WAIT状态!

在调用

sockConnected = socket(AF_INET, SOCK_STREAM, 0); 
之后,我们要设置该套接字的选项来重用:
/// 允许重用本地地址和端口: 
/// 这样的好处是,即使socket断了,调用前面的socket函数也不会占用另一个,而是始终就是一个端口 
/// 这样防止socket始终连接不上,那么按照原来的做法,会不断地换端口。 
int nREUSEADDR = 1; 
setsockopt(sockConnected,
	SOL_SOCKET,
	SO_REUSEADDR,
	(const char*)&nREUSEADDR, 
	sizeof(int));

教科书上是这么说的:这样,假如服务器关闭或者退出,造成本地地址和端口都处于 TIME_WAIT (此时server方式主动发出FIN的)状态,那么SO_REUSEADDR就显得非常有用。也许我们无法避免被冻结在CLOSE_WAIT状态永远不出现,但起码可以保证不会占用新的端口。

其次,LINGER是“拖延”的意思,SO_LINGER套接字选项的含义是啥啦?SO_LINGER的数值是大于0,则表示是从容关闭,否则就是强行关闭。 默认情况下(Win2k),SO_DONTLINGER套接字选项的是1;SO_LINGER选项是,linger为{l_onoff:0,l_linger:0}。 如果在发送数据的过程中(send()没有完成,还有数据没发送)而调用了closesocket(),以前我们一般采取的措施是“从容关闭”:因为在退出服务或者每次重新建立socket之前,我都会先调用

/// 先将双向的通讯关闭 
shutdown(sockConnected, SD_BOTH); 
/// 安全起见,每次建立Socket连接前,先把这个旧连接关闭 
closesocket(sockConnected);

我们这次要这么做:

设置SO_LINGER为零(亦即linger结构中的l_onoff域设为非零,但l_linger为0),便不用担心closesocket调用进入“锁定”状态(等待完成),不论是否有排队数据未发送或未被确认。这种关闭方式称为“强行关闭”,因为套接字的虚电路立即被复位,尚未发出的所有数据都会丢失。在远端的recv()调用都会失败,并返回WSAECONNRESET错误。
在connect成功建立连接之后设置该选项:

linger m_sLinger; 
m_sLinger.l_onoff = 1;  // (在closesocket()调用,但是还有数据没发送完毕的时候容许逗留) 
m_sLinger.l_linger = 0; // (容许逗留的时间为0秒) 
setsockopt(sockConnected, 
	SOL_SOCKET, 
	SO_LINGER, 
	(const char*)&m_sLinger, 
	sizeof(linger));

另外:
通常来说,一个CLOSE_WAIT会维持至少2个小时的时间。如果有个流氓特地写了个程序,给你造成一堆的CLOSE_WAIT,消耗

你的资源,那么通常是等不到释放那一刻,系统就已经解决崩溃了。

只能通过修改一下TCP/IP的参数,来缩短这个时间:修改tcp_keepalive_*系列参数有助于解决这个问题。

 /sbin/sysctl -a | grep tcp_keepalive_time

net.ipv4.tcp_keepalive_time = 7200

tcp_keepalive_time :INTEGER 默认值是7200(2小时)

当keepalive打开的情况下,TCP发送keepalive消息的频率。(由于目前网络攻击等因素,造成了利用这个进行的攻击很频繁,曾经也有cu的朋友提到过,说如果2边建立了连接,然后不发送任何数据或者rst/fin消息,那么持续的时间是不是就是2小时,空连接攻击? tcp_keepalive_time就是预防此情形的.我个人在做nat服务的时候的修改值为1800秒)

<think>我们正在讨论TCP连接关闭过程中的状态,特别是CLOSE_WAIT和FIN_WAIT_2状态。 根据引用[1][2][3][4][5]的内容,我们可以总结如下: 1. FIN_WAIT_2状态: - 出现在主动关闭方(比如客户端或服务端中的主动关闭连接的一方)。 - 主动关闭方发送了FIN(第一步),并收到了对方对这个FIN的ACK(第二步)之后,就会进入FIN_WAIT_2状态。 - 此时,主动关闭方等待的是被动关闭方发送FIN(第三步)来关闭另一个方向的连接。 - 如果被动关闭方迟迟不发送FIN,那么主动关闭方就会一直停留在FIN_WAIT_2状态。 - 引用[5]提到,在Linux中,可以通过调整`net.ipv4.tcp_fin_timeout`参数来设置超时时间(默认60秒),超过这个时间,系统会强制关闭连接。 2. CLOSE_WAIT状态: - 出现在被动关闭方(即收到对方FIN的一端)。 - 当被动关闭方收到主动关闭方发来的FIN后,会发送ACK(第二步)并进入CLOSE_WAIT状态。 - 此时,被动关闭方需要等待应用程序调用close()来发送自己的FIN(第三步),以关闭另一个方向的连接。 - 如果应用程序没有及时关闭连接(比如忘记调用close,或者程序阻塞),那么连接就会一直停留在CLOSE_WAIT状态。 - 引用[3]提到,在即时通信系统中,如果服务端在清理客户端业务数据时存在阻塞,就可能导致CLOSE_WAIT状态持续存在。 总结: - FIN_WAIT_2是主动关闭方在发送FIN并收到ACK后,等待对方FIN的状态。 - CLOSE_WAIT是被动关闭方在收到FIN并发送ACK后,等待应用程序关闭连接的状态。 两种状态长时间存在的原因和解决方法: - FIN_WAIT_2过多:通常是因为被动关闭方没有发送FIN(即对方没有关闭连接)。解决方法:调整系统参数(如`tcp_fin_timeout`)设置超时;或者确保被动关闭方正确关闭连接。 - CLOSE_WAIT过多:通常是因为应用程序没有调用close()来关闭连接。解决方法:检查程序是否有资源泄漏,确保所有连接在不再需要时被正确关闭。 需要注意的是,TCP连接是双向的,关闭时需要双方各自关闭自己的发送通道。因此,四次挥手的过程需要双方配合完成。 下面根据要求,使用数学表达式格式(虽然这里没有复杂的数学公式,但我们可以在需要的地方使用$...$格式)和独立公式格式,并生成相关问题。 </think>### CLOSE_WAIT 和 FIN_WAIT_2 状态详解 #### 1. **FIN_WAIT_2 状态** - **触发条件**:主动关闭方(如客户端)发送 FIN 后收到对方的 ACK,但未收到对方的 FIN 响应[^1] $$ \text{主动关闭方流程:} \text{SEND FIN} \rightarrow \text{RECEIVE ACK} \rightarrow \text{进入 FIN\_WAIT\_2} $$ - **状态含义**:等待被动关闭方发送 FIN 报文完成双向关闭[^2] - **典型场景**: - 服务端关闭连接但客户端未关闭(引用[4]) - 被动关闭方处理业务延时未发送 FIN(如数据库操作阻塞,引用[3]) - **风险**: - 可能无限期持续(TCP 协议未设超时,依赖系统实现) - 大量堆积导致内核资源耗尽(引用[5]) - **解决方案**: ```bash # Linux 设置超时(默认60秒) sysctl -w net.ipv4.tcp_fin_timeout=30 ``` #### 2. **CLOSE_WAIT 状态** - **触发条件**:被动关闭方(如服务端)收到 FIN 后发送 ACK,但未调用 close() $$ \text{被动关闭方流程:} \text{RECEIVE FIN} \rightarrow \text{SEND ACK} \rightarrow \text{进入 CLOSE\_WAIT} $$ - **状态含义**:等待应用程序调用 close() 发送 FIN[^3] - **根本原因**:**应用程序未正确释放连接资源**,常见于: - 未关闭数据库连接(如缺失 `mysql.close()`) - 业务处理阻塞(如写入日志/数据库时线程卡死,引用[3]) - 代码缺陷导致套接字泄漏 - **危害**: - 每个连接占用文件描述符,最终导致 `Too many open files` 错误 - 服务端资源耗尽无法接受新连接 #### 状态对比与排查要点 | 特性 | FIN_WAIT_2 | CLOSE_WAIT | |---------------|----------------------------|----------------------------| | **位置** | 主动关闭方 | 被动关闭方 | | **等待对象** | 对方的 FIN 报文 | 应用程序调用 close() | | **根本原因** | 对方未关闭连接 | 本地程序未释放资源 | | **排查命令** | `netstat -ant \| grep FIN_WAIT2` | `netstat -ant \| grep CLOSE_WAIT` | | **解决方案** | 调整系统参数/检查对端 | 修复应用程序资源泄漏 | > **关键结论**: > - FIN_WAIT_2 是**协议层问题**(对端未完成关闭流程) > - CLOSE_WAIT 是**应用层问题**(本地程序未调用 close())[^3][^5]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值