Accept惊群

最新推荐文章于 2025-02-11 13:39:05 发布

原创最新推荐文章于 2025-02-11 13:39:05 发布 · 535 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #socket #多线程 #性能 #epoll

计算机网络专栏收录该内容

17 篇文章

订阅专栏

什么是“Accept惊群”？简单说来，多线程/多进程等待同一个socket事件，当connect事件发生时，这些线程/进程被同时唤醒，就是惊群。
这样效率很低，许多进程被内核重新调度唤醒，同时去响应这一个事件，当然只有一个进程能处理事件成功，其他的进程在处理该事件失败后重新休眠。这种性能浪费现象就是惊群。

惊群通常发生在server上，当父进程绑定一个端口监听socket，然后fork出多个子进程，子进程们开始循环处理（比如accept）这个socket。每当用户发起一个TCP连接时，多个子进程同时被唤醒，然后其中一个子进程accept新连接成功，其他失败，重新休眠。

其实，在linux2.6内核上，accept系统调用已经不存在惊群了。可以写个简单的程序试下，在父进程中bind,listen，然后fork出子进程，所有的子进程都accept这个监听句柄。这样，当新连接过来时，大家会发现，仅有一个子进程返回新建的连接，其他子进程继续休眠在accept调用上，没有被唤醒。

【重要】：accept惊群是一个古老的问题，Linux从2.2.9的内核起，已经“修复”了这个问题，即内核保证只唤醒一个进程，而且内核的唤醒策略在多个等待进程的情况下保证均匀。（测试发现不是很均匀）

epoll，select，poll等syscall如果在多个进程中监听相同的socket，会有惊群效应，需要加锁保护。
epoll_wait好像内部是领导者追随者模式，新版本不会有惊群问题，进程激活分配不均匀。

# uname -a
Linux PLATDEV 2.6.16.46-0.12-xenpae-1024-18 #31 SMP Wed Oct 24 21:10:58 CST 2007 i686 i686 i386 GNU/Linux

Server listen后主进程fork3个子进程，4个进程都在无限循环阻塞accept，
Client 循环5000次 connect，测试结果如下：
没有发现惊群现象，无accept失败的情况，但是各个进程负载的connect事件个数不是很平均。

complete to child accept1 --- 1452
complete to child accept2 --- 1075
complete to child accept3 --- 1314

complete to father accept --- 1159