epoll的实现细节

最新推荐文章于 2024-08-30 21:04:14 发布

码出钞能力

最新推荐文章于 2024-08-30 21:04:14 发布

阅读量382

点赞数

CC 4.0 BY-SA版权

分类专栏：操作系统文章标签： epoll

原文链接：https://blog.youkuaiyun.com/xjk201/article/details/124171052

操作系统专栏收录该内容

101 篇文章

订阅专栏

文章详细阐述了Linux内核中epoll机制使用的数据结构，包括就绪队列采用双向链表（rdllist）以便快速插入和删除，以及索引结构采用红黑树（rbr）以优化添加、删除和搜索操作。epoll通过eventpoll结构体管理socket，当事件发生时，回调函数ep_poll_callback将事件放入rdllist，epoll_wait检查此链表并返回事件给用户态。这种设计使得epoll能高效处理大量并发连接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

就绪队列应该应使用什么数据结构？eventpoll 应使用什么数据结构来管理通过 epoll_ctl 添加或删除的 socket？

如下图所示，eventpoll 包含了 lock、mtx、wq（等待队列）与 rdlist 等成员，其中 rdlist 和 rbr 是我们所关心的。

epoll 原理示意图，图片来源：《深入理解Nginx：模块开发与架构解析(第二版)》，陶辉

（就绪的socket用双向列表存，监视的socket用红黑树存）

就绪列表的数据结构

就绪列表引用着就绪的 socket，所以它应能够快速的插入数据。

程序可能随时调用 epoll_ctl 添加监视 socket，也可能随时删除。当删除时，若该 socket 已经存放在就绪列表中，它也应该被移除。所以就绪列表应是一种能够快速插入和删除的数据结构。

双向链表就是这样一种数据结构，epoll 使用双向链表来实现就绪队列（对应上图的 rdllist）。

索引结构

既然 epoll 将“维护监视队列”和“进程阻塞”分离，也意味着需要有个数据结构来保存监视的 socket，至少要方便地添加和移除，还要便于搜索，以避免重复添加。红黑树是一种自平衡二叉查找树，搜索、插入和删除时间复杂度都是O(log(N))，效率较好，epoll 使用了红黑树作为索引结构（对应上图的 rbr）。

注：因为操作系统要兼顾多种功能，以及由更多需要保存的数据，rdlist 并非直接引用 socket，而是通过 epitem 间接引用，红黑树的节点也是 epitem 对象。同样，文件系统也并非直接引用着 socket。为方便理解，本文中省略了一些间接结构。

小结

1、当某一进程调用epoll_create方法时，Linux内核会创建一个eventpoll结构体，在内核cache里建了个红黑树用于存储以后epoll_ctl传来的socket外，还会再建立一个rdllist双向链表，用于存储准备就绪的事件，当epoll_wait调用时，仅仅观察这个rdllist双向链表里有没有数据即可。有数据就返回，没有数据就sleep，等到timeout时间到后即使链表没数据也返回。

2、同时，所有添加到epoll中的事件都会与设备(如网卡)驱动程序建立回调关系，也就是说相应事件的发生时会调用这里的回调方法。这个回调方法在内核中叫做ep_poll_callback，它会把这样的事件放到上面的rdllist双向链表中。

3、当调用epoll_wait检查是否有发生事件的连接时，只是检查eventpoll对象中的rdllist双向链表是否有epitem元素而已，如果rdllist链表不为空，则这里的事件复制到用户态内存（使用共享内存提高效率）中，同时将事件数量返回给用户。因此epoll_waitx效率非常高，可以轻易地处理百万级别的并发连接。

这里也以表格形式简单对比一下 select、poll 与 epoll，希望读者能有所收获。