CLOSE_WAIT状态的讨论

最新推荐文章于 2025-05-14 14:42:23 发布

原创最新推荐文章于 2025-05-14 14:42:23 发布 · 612 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#互联网 #算法

网络编程专栏收录该内容

28 篇文章

订阅专栏

本文探讨了Socket编程中客户端程序遇到的CLOSE_WAIT状态问题，分析了其产生的原因，并提供了设置SO_REUSEADDR和SO_LINGER选项的具体解决方案。

不久前，我的Socket Client程序遇到了一个非常尴尬的错误。它本来应该在一个socket长连接上持续不断地向服务器发送数据，如果socket连接断开，那么程序会自动不断地重试建立连接。

有一天发现程序在不断尝试建立连接，但是总是失败。用netstat查看，这个程序竟然有上千个socket连接处于CLOSE_WAIT状态，以至于达到了上限，所以无法建立新的socket连接了。
为什么会这样呢？它们为什么会都处在CLOSE_WAIT状态呢？

CLOSE_WAIT状态的生成原因
首先我们知道，如果我们的Client程序处于CLOSE_WAIT状态的话，说明套接字是被动关闭的！
因为如果是Server端主动断掉当前连接的话，那么双方关闭这个TCP连接共需要四个packet：

Server —> FIN —> Client

Server <— ACK <— Client

这时候Server端处于FIN_WAIT_2状态；而我们的程序处于CLOSE_WAIT状态。

Server <— FIN <— Client

这时Client发送FIN给Server，Client就置为LAST_ACK状态。

Server —> ACK —> Client

Server回应了ACK，那么Client的套接字才会真正置为CLOSED状态。

我们的程序处于CLOSE_WAIT状态，而不是LAST_ACK状态，说明还没有发FIN给Server，那么可能是在关闭连接之前还有许多数据要发送或者其他事要做，导致没有发这个FIN packet。不管怎么样，我们必须防止类似情况再度发生！

首先，我们要保证原来的端口可以被重用，这可以通过设置SO_REUSEADDR套接字选项做到：
重用本地地址和端口
以前我总是一个端口不行，就换一个新的使用，所以导致让数千个端口进入CLOSE_WAIT状态。如果下次还发生这种尴尬状况，我希望加一个限定，只是当前这个端口处于CLOSE_WAIT状态！

在调用

sockConnected = socket(AF_INET, SOCK_STREAM, 0); 
之后，我们要设置该套接字的选项来重用：
/// 允许重用本地地址和端口: 
/// 这样的好处是，即使socket断了，调用前面的socket函数也不会占用另一个，而是始终就是一个端口 
/// 这样防止socket始终连接不上，那么按照原来的做法，会不断地换端口。 
int nREUSEADDR = 1; 
setsockopt(sockConnected,
	SOL_SOCKET,
	SO_REUSEADDR,
	(const char*)&nREUSEADDR, 
	sizeof(int));

教科书上是这么说的：这样，假如服务器关闭或者退出，造成本地地址和端口都处于 TIME_WAIT （此时server方式主动发出FIN的）状态，那么SO_REUSEADDR就显得非常有用。也许我们无法避免被冻结在CLOSE_WAIT状态永远不出现，但起码可以保证不会占用新的端口。

其次，LINGER是“拖延”的意思，SO_LINGER套接字选项的含义是啥啦？SO_LINGER的数值是大于0，则表示是从容关闭，否则就是强行关闭。默认情况下(Win2k)，SO_DONTLINGER套接字选项的是1；SO_LINGER选项是，linger为{l_onoff：0，l_linger：0}。如果在发送数据的过程中(send()没有完成，还有数据没发送)而调用了closesocket()，以前我们一般采取的措施是“从容关闭”：因为在退出服务或者每次重新建立socket之前，我都会先调用

/// 先将双向的通讯关闭 
shutdown(sockConnected, SD_BOTH); 
/// 安全起见，每次建立Socket连接前，先把这个旧连接关闭 
closesocket(sockConnected);

我们这次要这么做：

设置SO_LINGER为零（亦即linger结构中的l_onoff域设为非零，但l_linger为0），便不用担心closesocket调用进入“锁定”状态（等待完成），不论是否有排队数据未发送或未被确认。这种关闭方式称为“强行关闭”，因为套接字的虚电路立即被复位，尚未发出的所有数据都会丢失。在远端的recv()调用都会失败，并返回WSAECONNRESET错误。

在connect成功建立连接之后设置该选项：

linger m_sLinger; 
m_sLinger.l_onoff = 1;  // (在closesocket()调用,但是还有数据没发送完毕的时候容许逗留) 
m_sLinger.l_linger = 0; // (容许逗留的时间为0秒) 
setsockopt(sockConnected, 
	SOL_SOCKET, 
	SO_LINGER, 
	(const char*)&m_sLinger, 
	sizeof(linger));

另外：
通常来说，一个CLOSE_WAIT会维持至少2个小时的时间。如果有个流氓特地写了个程序，给你造成一堆的CLOSE_WAIT，消耗

你的资源，那么通常是等不到释放那一刻，系统就已经解决崩溃了。

只能通过修改一下TCP/IP的参数，来缩短这个时间：修改tcp_keepalive_*系列参数有助于解决这个问题。

/sbin/sysctl -a | grep tcp_keepalive_time

net.ipv4.tcp_keepalive_time = 7200

tcp_keepalive_time ：INTEGER 默认值是7200(2小时)

当keepalive打开的情况下，TCP发送keepalive消息的频率。(由于目前网络攻击等因素,造成了利用这个进行的攻击很频繁,曾经也有cu的朋友提到过,说如果2边建立了连接,然后不发送任何数据或者rst/fin消息,那么持续的时间是不是就是2小时,空连接攻击? tcp_keepalive_time就是预防此情形的.我个人在做nat服务的时候的修改值为1800秒)