TCP连接心跳机制

在TCP网络通信中,经常会出现客户端和服务器之间的非正常断开,需要实时检测查询链接状态。常用的解决方法就是在程序中加入心跳机制。

从网络上找到,主要有以下方法实现TCP异常断开的检测:

SO_KEEPALIVE,SIO_KEEPALIVE_VALS 和Heart-Beat线程。
(1)SO_KEEPALIVE 机制
        这是socket库提供的功能,设置接口是setsockopt API:
   BOOL bSet=TRUE;
   setsockopt(hSocket,SOL_SOCKET,SO_KEEPALIVE,(const char*)&bSet,sizeof(BOOL));

       根据MSDN的文档,如果为socket设置了KEEPALIVE选项,TCP/IP栈在检测到对方掉线后,
   任何在该socket上进行的调用(发送/接受调用)就会立刻返回,错误号是WSAENETRESET ;
   同时,此后的任何在该socket句柄的调用会立刻失败,并返回WSAENOTCONN错误。

   该机制的缺点:

一、SO_KEEPALIVE无法控制,它会每时每刻都发;

二、SO_KEEPALIVE设置空闲2小时才发送一个“保持存活探测分节”,不能保证实时检测。对于判断网络断开时间太长,对于需要及时响应的程序不太适应。
   当然也可以修改时间间隔参数,但是会影响到所有打开此选项的套接口!关联了完成端口的socket可能会忽略掉该套接字选项。
(2)SIO_KEEPALIVE_VALS 机制 
     设置接口是WSAIoctl API:
     DWORD dwError = 0L ;
     tcp_keepalive sKA_Settings = {0}, sReturned = {0} ;
     sKA_Settings.onoff = 1 ;
     sKA_Settings.keepalivetime = 5500 ; // Keep Alive in 5.5 sec.
     sKA_Settings.keepaliveinterval = 3000 ; // Resend if No-Reply
     if (WSAIoctl(skNewConnection, SIO_KEEPALIVE_VALS, &sKA_Settings,
          sizeof(sKA_Settings), &sReturned, sizeof(sReturned), &dwBytes,
          NULL, NULL) != 0)
     {
           dwError = WSAGetLastError() ;
     }
     实现时需要添加tcp_keepalive and SIO_KEEPALIVE_VALS的定义文件MSTCPiP.h
     该选项不同于SO_KEEPALIVE 机制的就是它是针对单个连接的,对系统其他的套接
     口并不影响。
        针对完成端口的socket,设置了SIO_KEEPALIVE_VALS后,激活包由TCP STACK来负责。
     当网络连接断开后,TCP STACK并不主动告诉上层的应用程序,但是当下一次RECV或者SEND操作
     进行后,马上就会返回错误告诉上层这个连接已经断开了.如果检测到断开的时候,在这个连接
     上有正在PENDING的IO操作,则马上会失败返回.
    该机制的缺点:

    不通用。MS的API只能用于Windows。   
(3)Heart-Beat线程
    这个是最常用的简单方法。在接收和发送数据时个人设计一个守护进程,定时发送Heart-Beat包,客户端/服务器收到该小包后,立刻返回相应的包即可检测对方是否实时在线。

    该方法的好处是通用,但缺点就是会改变现有的通讯协议!大家一般都是使用业务层心跳来处理,主要是灵活可控。

UNIX网络编程不推荐使用SO_KEEPALIVE来做心跳检测,还是在业务层以心跳包做检测比较好,也方便控制,楼上给的代码是UNIX下的,WIN下不适用。Windows下此处的”非正常断开”指TCP连接不是以优雅的方式断开,如网线故障等物理链路的原因,还有突然主机断电等原因。
有两种方法可以检测:1.TCP连接双方定时发握手消息 2.利用TCP协议栈中的KeepAlive探测
第二种方法简单可靠,只需对TCP连接两个Socket设定KeepAlive探测。

 

第一种方法是自己给SOCKET设置个timeout,如果超时则认为对方客户端断掉,需重新连接.

//处理通信

void do_client_work(int client_sock,struct sockaddr_in client)
{
 unsigned char cmd;
 int val;
 char *VideoPtr;
 send_client_info(client_sock,"hello",5);
 TCP_VIDEO_AGAIN_FLAG = 1;
 printf("\nrecv start ...\n");
 while(1)
 {
    fd_set rds;
    struct timeval step;
    int ret;
    FD_ZERO(&rds);
    FD_SET(client_sock,&rds);
    step.tv_sec = 0;
    step.tv_usec = 1000;
    ret = select(client_sock+1,&rds,NULL,NULL,&step);
    if(ret < 0)
    {
     perror("select");
     exit(-1);
    }
    if(ret == 0)
    {

        ...//执行等待超时命令
    }
    else if(FD_ISSET(client_sock,&rds))
    {
       val = recv_client_info(client_sock,&cmd,1);
       if(val < 0)
       {
          break;
       }
       else
       {
        ...//执行读写客户端数据操作

        if(TcpOutFlag==1)
        {
          TcpOutFlag=0;
          break;
        }
       }
    }
 }
}

 

//TCP接收数据

int  recv_client_info(int client_sock,char* info,int length)
{
  int num;
  struct timeval tv;
  tv.tv_sec = 15;
  tv.tv_usec = 0;
  if (setsockopt(client_sock, SOL_SOCKET, SO_RCVTIMEO, &tv, sizeof(tv))>=0)
  {
      num = recv(client_sock,info,length,MSG_NOSIGNAL);
      if(num < 0)
      {
       perror("recv");
       return 0;
      }
      else if(num == 0)
      {
       printf("recv over\n");
       return -2;
      }
      else
      {
       pthread_mutex_lock(&mutex);
       TCP_Timeout = 0;
       pthread_mutex_unlock(&mutex);
       return 0;
      }
  }
  else
  {
       printf("TCP CONNECT超时...\n");
       return -1;
  }
}

 


第二种方法在Linux,Window2000下的实现Windows 2000平台下
头文件
#include <mstcpip.h>
//定义结构及宏
struct TCP_KEEPALIVE {
u_longonoff;
u_longkeepalivetime;
u_longkeepaliveinterval;

} ;

  1. tcp_keepalive live,liveout;  
  2. live.keepaliveinterval=500;  
  3. live.keepalivetime=3000;  
  4. live.onoff=TRUE;  
  5. int iRet = setsockopt(Socket,SOL_SOCKET,SO_KEEPALIVE,(char *)Opt,sizeof(int));  
  6. if(iRet == 0){  
  7.  
  8.         DWORD dw;  
  9.  
 10.        if(WSAIoctl(Socket,SIO_KEEPALIVE_VALS,&live,sizeof(live),&liveout,sizeof(liveout),&dw,NULL,NULL)== SOCKET_ERROR){  
 11.  
 12.                 //Delete Client  
 13.  
 14.                 return;  
 15.         }  
 16.    }  

 ACE下代码

  int Opt = 1;
  //在测试过程中,发现检测的次数是5次,即下面的设置中,从最近一次消息开始计算的10秒后,每次间隔5秒,连续发送5次,即
  //35秒发现网络断了
tcp_keepalive live,liveout;  
live.keepaliveinterval=5000; //每次检测的间隔 (单位毫秒)
live.keepalivetime=10000;  //第一次开始发送的时间(单位毫秒)
live.onoff=TRUE;  
int iRet = stream.set_option(SOL_SOCKET,SO_KEEPALIVE,&Opt,sizeof(int));  
if(iRet == 0){  

           DWORD dw;  

     //此处显示了在ACE下获取套接字的方法,即句柄的(SOCKET)化就是句柄
         if(WSAIoctl((SOCKET)h,SIO_KEEPALIVE_VALS,&live,sizeof(live),&liveout,sizeof(liveout),&dw,NULL,NULL)== SOCKET_ERROR){  

                  //Delete Client  

                  return;  
          }  
     }  


 

Linux平台下
#include    "/usr/include/linux/tcp.h"
#include "/usr/include/linux/socket.h"
////KeepAlive实现,单位秒
//下面代码要求有ACE,如果没有包含ACE,则请把用到的ACE函数改成linux相应的接口
int keepAlive = 1;//设定KeepAlive
int keepIdle = 5;//开始首次KeepAlive探测前的TCP空闭时间
int keepInterval = 5;//两次KeepAlive探测间的时间间隔
int keepCount = 3;//判定断开前的KeepAlive探测次数

if(setsockopt(s,SOL_SOCKET,SO_KEEPALIVE,(void*)&keepAlive,sizeof(keepAlive)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt SO_KEEPALIVE error!n")));

}

if(setsockopt(s,SOL_TCP,TCP_KEEPIDLE,(void *)&keepIdle,sizeof(keepIdle)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPIDLE error!n")));

}

if(setsockopt(s,SOL_TCP,TCP_KEEPINTVL,(void *)&keepInterval,sizeof(keepInterval)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPINTVL error!n")));

}

if(setsockopt(s,SOL_TCP,TCP_KEEPCNT,(void *)&keepCount,sizeof(keepCount)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t)setsockopt TCP_KEEPCNT error!n")));

}


假设一种情况:一个socket TCP监听进程监听数据的时候如何接收关闭文件的socket连接?

不用并发

 read/recv函数返回0均表示正常结束。此时关闭即可。如果用select/poll/epoll管理,该套接字也会读就绪,然后调用recv/read返回0。
  对于异常关闭如网络崩溃、主机宕机等,可通过设置SO_KEEPALIVE设置保活,协议会按照设定间隔自动发送探测分节。该选项分为设置无数据首次探测时间、探测间隔、探测次数控制TCP是否出错。如果你设置首次探测在10秒之后、探测间隔3次,探测次数3次,则最多30秒之后将给应用层返回一个对方非正常关闭的异常,此时可通过获得errno得到对应错误,read/recv返回为-1。具体代码是:
void setKeepAlive( int iSockfd , socklen_t iIdleTime , socklen_t iInterval , socklen_t iCount )
{
       
        setsockopt( iSockfd , SOL_SOCKET , SO_KEEPALIVE , (const char*)&iSockAttrOn , sizeof(iSockAttrOn) );

       
        setsockopt( iSockfd , SOL_TCP , TCP_KEEPIDLE , (const char*)&iIdleTime , sizeof(iIdleTime) );
       
        setsockopt( iSockfd , SOL_TCP , TCP_KEEPINTVL , (const char*)&iInterval,sizeof(iInterval) );
       
        setsockopt( iSockfd , SOL_TCP , TCP_KEEPCNT , (const char*)&iCount,sizeof(iCount) );

}

<think>好的,我现在需要回答用户关于在TCP连接中实现心跳机制的问题。首先,我需要回顾一下已有的引用内容,确保准确理解相关知识。 用户的问题是关于如何在TCP连接中实现心跳机制,包括方法、原理、心跳包设计和最佳实践。根据提供的引用,心跳机制主要是通过定期发送探测包(心跳包)来维持连接,并检测连接是否有效。引用3提到心跳包类似于均匀的心跳信号,每隔固定时间发送一次,保持长连接。引用4提到心跳包用于保活和断线处理,判定时间建议30-40秒或更短如6-9秒。而引用2指出虽然TCP有自己的keep-alive机制,但应用层自己实现心跳可能更优。 接下来,我需要整理这些信息,按照用户的要求分点回答。首先解释心跳机制的原理,然后设计方法,包括应用层实现、TCP自身机制心跳包内容、频率设置、超时处理等。最后给出最佳实践,比如协议设计、频率选择、容错机制和结合重连。 需要注意的是,用户要求使用中文回答,行内公式用$...$,独立公式用$$...$$。但当前问题主要涉及网络协议,可能数学公式较少,不过如果有涉及计算频率或超时的公式,需要正确使用格式。例如,心跳间隔的计算可能需要数学表达式,但根据引用中的例子,可能不需要,所以暂时不考虑。 另外,生成相关问题部分需要提出三个相关问题,围绕心跳机制的其他方面,比如与TCP keep-alive的区别、心跳频率的影响、多协议下的处理等。 现在需要检查引用是否正确应用。比如引用3解释了心跳包的原理,引用4提到判定时间,引用2讨论应用层实现与TCP keep-alive的比较。在回答中需要正确标注引用,例如在说明心跳包作用时引用3,提到时间设置时引用4,比较应用层和传输层时引用2和4。 最后,确保回答结构清晰,分点明确,符合用户的要求。</think>### TCP连接心跳机制实现方法 #### 一、心跳机制原理 心跳机制通过**周期性发送探测数据包**验证连接有效性,若超时未收到响应则判定连接异常。其核心作用包括: 1. **连接保活**:防止NAT网关或防火墙因超时回收连接资源[^3] 2. **故障检测**:及时发现物理断网、进程崩溃等异常情况[^4] 3. **状态同步**:维持两端会话状态的一致性 #### 二、实现方法 1. **应用层自主实现(推荐方案)** ```python # Python示例:心跳发送线程 import threading, time def heartbeat_sender(conn, interval=30): while True: try: conn.send(b'HEARTBEAT') # 发送心跳包 time.sleep(interval) except ConnectionResetError: break ``` - **优势**:可定制协议格式、支持业务状态携带 - **设计要素**: - 独立心跳线程/协程 - 双向确认机制(发送+响应) - 心跳包标识符(如0xFFFF) 2. **TCP Keep-Alive机制** ```c // C语言设置示例 int keepalive = 1; setsockopt(sockfd, SOL_SOCKET, SO_KEEPALIVE, &keepalive, sizeof(keepalive)); ``` - **默认参数**(Linux系统): $$ \begin{cases} \text{探测间隔}(t_{keep})=7200s \\ \text{重试次数}(n_{retry})=9 \\ \text{重试间隔}(t_{intvl})=75s \end{cases} $$ - **局限**:无法携带业务数据,参数调整依赖系统配置[^2] 3. **混合式实现** ```mermaid graph TD A[应用层心跳] -->|主要检测| B(应用进程存活) C[TCP Keep-Alive] -->|辅助检测| D(网络链路状态) ``` #### 三、心跳包设计规范 1. **协议格式** | 字段 | 长度 | 说明 | |---|---|----| | 类型码 | 2字节 | 0x0001表示心跳 | | 时间戳 | 8字节 | 发送时UNIX时间戳 | | 序列号 | 4字节 | 循环递增标识 | 2. **频率设置** - 推荐区间:$t \in [15s, 60s]$ - 计算公式: $$ t_{optimal} = \frac{T_{NAT}}{3} $$ ($T_{NAT}$为网络设备会话超时时间,通常60-300s) 3. **异常处理机制** - 连续失败阈值:$n=3$ - 超时重传策略:二进制指数退避算法 - 断线处理流程: ```python def handle_timeout(): for retry in range(3): if send_heartbeat(): return True time.sleep(2**retry) reconnect() ``` #### 四、最佳实践 1. **协议设计原则** - 轻量化:心跳包长度建议不超过64字节 - 可扩展:预留状态位字段携带附加信息 - 加密处理:敏感场景需添加HMAC验证 2. **参数调优建议** | 场景 | 间隔 | 超时 | |---|---|----| | 移动网络 | 20-25s | 75s | | 固定宽带 | 30-40s | 120s | | 物联网 | 55-60s | 180s | 3. **容错机制** - 心跳漂移检测:$$ \Delta t = |t_{current} - t_{prev}| \leq 1.5t_{interval} $$ - 状态同步补偿:异常恢复后补发缓存数据 - 网络切换感知:监听网络状态事件主动触发心跳 4. **重连策略** ```python def reconnect_strategy(): base_delay = 1 max_delay = 60 while True: if connect(): return sleep(base_delay) base_delay = min(base_delay * 2, max_delay) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值