1.epoll的诞生
1.1 select的缺点
- 单个进程能够监视的文件描述符的数量存在最大限制,通常是1024,当然可以更改数量,但由于select采用轮询的方式扫 描文件描述符,文件描述符数量越多,性能越差;
- 内核 / 用户空间内存拷贝问题,select需要复制大量的句柄数据结构,产生巨大的开销;
- select返回的是含有整个句柄的数组,应用程序需要遍历整个数组才能发现哪些句柄发生了事件;
- select的触发方式是水平触发,应用程序如果没有完成对一个已经就绪的文件描述符进行IO操作,那么之后每次select调 用还是会将这些文件描述符通知进程。
1.2 epoll出现
在linux 没有实现epoll事件驱动机制之前,我们一般选择用select或者poll等IO多路复用的方法来实现并发服务程序。自 Linux 2.6内核正式引入epoll以来,epoll已经成为了目前实现高性能网络服务器的必备技术,在大数据、高并发、集群等一些名 词唱得火热之年代,select和poll的用武之地越来越有限,风头已经被epoll占尽。
相比select模型,poll使用链表保存文件描述符,因此没有了监视文件数量的限制,但其他三个缺点依然存在。拿select模型 为例,假设我们的服务器需要支持100万的并发连接,则在__FD_SETSIZE 为1024的情况下,则我们至少需要开辟1k个进程才能 实现100万的并发连接。除了进程间上下文切换的时间消耗外,从内核/用户空间大量的无脑内存拷贝、数组轮询等,是系统难以 承受的。因此,基于select模型的服务器程序,要达到10万级别的并发访问,是一个很难完成的任务。
epoll是Linux内核为处理大批量文件描述符而作了改进的poll,是Linux下多路复用IO接口select/poll的增强版本,它能显著 提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。另一点原因就是获取事件的时候,它无须遍历整个被侦听 的描述符集,只要遍历那些被内核IO事件异步唤醒而加入Ready队列的描述符集合就行了。epoll除了提供select/poll那种IO事 件的水平触发(Level Triggered)外,还提供了边缘触发(Edge Triggered),这就使得用户空间程序有可能缓存IO状态,减 少epoll_wait/epoll_pwait的调用,提高应用程序效率。
LT(level triggered)是缺省的工作方式,并且同时支持block和no-block socket.在这种做法中,内核告诉你一个文件描述 符是否就绪了,然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作,内核还是会继续通知你的,所以,这种模式编程 出错误可能性要小一点。传统的select/poll都是这种模型的代表。
ET (edge-triggered)是高速工作方式,只支持non-block socket。在这种模式下,当描述符从未就绪变为就绪时,内核通 过epoll告诉你。然后它会假设你知道文件描述符已经就绪,并且不会再为那个文件描述符发送更多的就绪通知,直到你做了某些 操作导致那个文件描述符不再为就绪状态了(比如,你在发送,接收或者接收请求,或者发送接收的数据少于一定量时导致了一 个EWOULDBLOCK 错误)。但是请注意,如果一直不对这个fd作IO操作(从而导致它再次变成未就绪),内核不会发送更多的 通知(only once),不过在TCP协议中,ET模式的加速效用仍需要更多的benchmark确认。
ET和LT的区别就在这里体现,LT事件不会丢弃,而是只要读buffer里面有数据可以让用户读,则不断的通知你。而ET则只在事 件发生之时通知。可以简单理解为LT是水平触发,而ET则为边缘触发。LT模式只要有事件未处理就会触发,而ET则只在高低电 平变换时(即状态从1到0或者0到1)触发。
由于epoll的实现机制与select/poll机制完全不同,上面所说的 select的缺点在epoll上不复存在。设想一下如下场景:有100 万个客户端同时与一个服务器进程保持着TCP连接。而每一时刻,通常只有几百上千个TCP连接是活跃的(事实上大部分场景都是 这种情况)。如何实现这样的高并发?在select/poll时代,服务器进程每次都把这100万个连接告诉操作系统(从用户态复制句柄 数据结构到内核态),让操作系统内核去查询这些套接字上是否有事件发生,轮询完后,再将句柄数据复制到用户态,让服务器应 用程序轮询处理已发生的网络事件,这一过程资源消耗较大,因此,select/poll一般只能处理几千的并发连接。
epoll的设计和实现与select完全不同。epoll通过在Linux内核中申请一个简易的文件系统,把原先的select/poll调用分成了3 个部分:
- 调用epoll_create()建立一个epoll对象(在epoll文件系统中为这个句柄对象分配资源)
- 调用epoll_ctl向epoll对象中添加这100万个连接的套接字
- 调用epoll_wait收集发生的事件的连接
如此一来,要实现上面说是的场景,只需要在进程启动时建立一个epoll对象,然后在需要的时候向这个epoll对象中添加或者 删除连接。同时,epoll_wait的效率也非常高,因为调用epoll_wait时,并没有一股脑的向操作系统复制这100万个连接的句柄数 据,内核也不需要去遍历全部的连接。
2.函数参数解析
创建epoll实例:epoll_create()
函数原型:
#include <sys/epoll.h>
int epoll_create(int size);
系统调用epoll_create()创建了一个新的epoll实例,其对应的兴趣列表初始化为空。若成功返回文件描述符,若出错返回-1。 参数size指定了我们想要通过epoll实例来检查的文件描述符个数。该参数并不是一个上限,而是告诉内核应该如何为内部数据结 构划分初始大小。从Linux2.6.8版以来,size参数被忽略不用。
作为函数返回值,epoll_create()返回了代表新创建的epoll实例的文件描述符。这个文件描述符在其他几个epoll系统调用中用 来表示epoll实例。当这个文件描述符不再需要时,应该通过close()来关闭。当所有与epoll实例相关的文件描述符都被关闭 时,实例被销毁,相关的资源都返还给系统。从2.6.27版内核以来,Linux支持了一个新的系统调用epoll_create1()。该系统调用 执行的任务同epoll_create()一样,但是去掉了无用的参数size,并增加了一个可用来修改系统调用行为的flags参数。目前只支 持一个flag标志:EPOLL_CLOEXEC,它使得内核在新的文件描述符上启动了执行即关闭标志。
修改epoll的兴趣列表:epoll_ctl()
函数原型:
#include <sys/epoll.h>
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *ev);
系统调用epoll_ctl()能够修改由文件描述符epfd所代表的epoll实例中的兴趣列表。若成功返回0,若出错返回-1。
第一个参数epfd是epoll_create()的返回值;
第二个参数op用来指定需要执行的操作,它可以是如下几种值:
- EPOLL_CTL_ADD:将描述符fd添加到epoll实例中的兴趣列表中去。对于fd上我们感兴趣的事件,都指定在ev所指向的 结构体中。如果我们试图向兴趣列表中添加一个已存在的文件描述符,epoll_ctl()将出现EEXIST错误;
- EPOLL_CTL_MOD:修改描述符上设定的事件,需要用到由ev所指向的结构体中的信息。如果我们试图修改不在兴趣列表 中的文件描述符,epoll_ctl()将出现ENOENT错误;
- EPOLL_CTL_DEL:将文件描述符fd从epfd的兴趣列表中移除,该操作忽略参数ev。如果我们试图移除一个不在epfd的兴 趣列表中的文件描述符,epoll_ctl()将出现ENOENT错误。关闭一个文件描述符会自动将其从所有的epoll实例的兴趣列表 移除;
第三个参数fd指明了要修改兴趣列表中的哪一个文件描述符的设定。该参数可以是代表管道、FIFO、套接字、POSIX消息队 列、inotify实例、终端、设备,甚至是另一个epoll实例的文件描述符。但是,这里fd不能作为普通文件或目录的文件描述符;
第四个参数ev是指向结构体epoll_event的指针,结构体的定义如下:
typedef union epoll_data
{
void *ptr; /* Pointer to user-defind data */
int fd; /* File descriptor */
uint32_t u32; /* 32-bit integer */
uint64_t u64; /* 64-bit integer */
}epoll_data_t;
struct epoll_event
{
uint32_t events; /* epoll events(bit mask) */
epoll_data_t data; /* User data */
};
参数ev为文件描述符fd所做的设置(epoll_event)如下:
- events字段是一个位掩码,它指定了我们为待检查的描述符fd上所感兴趣的事件集合;
- data字段是一个联合体,当描述符fd稍后称为就绪态时,联合的成员可用来指定传回给调用进程的信息;
事件等待:epoll_wait()
函数原型:
#include <sys/epoll.h>
int epoll_wait(int epfd, struct epoll_event *evlist, int maxevents, int timeout);
系统调用epoll_wait()返回epoll实例中处于就绪态的文件描述符信息,单个epoll_wait()调用能够返回多个就绪态文件描述符的 信息。调用成功后epoll_wait()返回数组evlist中的元素个数,如果在timeout超时间隔内没有任何文件描述符处于就绪态的话就 返回0,出错时返回-1并在errno中设定错误码以表示错误原因。
第一个参数epfd是epoll_create()的返回值;
第二个参数evlist所指向的结构体数组中返回的是有关就绪态文件描述符的信息,数组evlist的空间由调用者负责申请;
第三个参数maxevents指定所evlist数组里包含的元素个数; 第四个参数timeout用来确定epoll_wait()的阻塞行为,有如下几种:
- 如果timeout等于-1,调用将一直阻塞,直到兴趣列表中的文件描述符上有事件产生或者直到捕获到一个信号为止。
- 如果timeout等于0,执行一次非阻塞式地检查,看兴趣列表中的描述符上产生了哪个事件。
- 如果timeout大于0,调用将阻塞至多timeout毫秒,直到文件描述符上有事件发生,或者直到捕获到一个信号为止。
数组evlist中,每个元素返回的都是单个就绪态文件描述符的信息。events字段返回了在该描述符上已经发生的事件掩码。 data字段返回的是我们在描述符上使用epoll_ctl()注册感兴趣的事件时在ev.data中所指定的值。注意,data字段是唯一可获知同 这个事件相关的文件描述符的途径。因此,当我们调用epoll_ctl()将文件描述符添加到感兴趣列表中时,应该要么将ev.date.fd设 为文件描述符号,要么将ev.date.ptr设为指向包含文件描述符号的结构体
当我们调用epoll_ctl()时可以在ev.events中指定的位掩码以及由epoll_wait()返回的evlist[].events中的值如下所示:

默认情况下,一旦通过epoll_ctl()的EPOLL_CTL_ADD操作将文件描述符添加到epoll实例的兴趣列表中后,它会保持激活状态 (即,之后对epoll_wait()的调用会在描述符处于就绪态时通知我们)直到我们显示地通过epoll_ctl()的EPOLL_CTL_DEL操作将 其从列表中移除。如果我们希望在某个特定的文件描述符上只得到一次通知,那么可以在传给epoll_ctl()的ev.events中指定 EPOLLONESHOT标志。如果指定了这个标志,那么在下一个epoll_wait()调用通知我们对应的文件描述符处于就绪态之后,这 个描述符就会在兴趣列表中被标记为非激活态,之后的epoll_wait()调用都不会再通知我们有关这个描述符的状态了。如果需 要,我们可以稍后用过调用epoll_ctl()的EPOLL_CTL_MOD操作重新激活对这个文件描述符的检查。
3.代码示例
下面是使用epoll()多路复用实现的服务器端示例代码:
1 #include<stdio.h>
2 #include<stdlib.h>
3 #include<unistd.h>
4 #include<string.h>
5 #include<errno.h>
6 #include<ctype.h>
7 #include<time.h>
8 #include<pthread.h>
9 #include<getopt.h>
10 #include<libgen.h>
11 #include<sys/types.h>
12 #include<sys/socket.h>
13 #include<arpa/inet.h>
14 #include<netinet/in.h>
15 #include<sys/epoll.h>
16 #include<sys/resource.h>
17
18 #define MAX_EVENTS 512
19 #define ARRAY_SIZE(x) sizeof(x)/sizeof(x[0])
20
21 static inline void print_usage(char *progname);
22 int socket_server_init(char *listen_ip, int listen_port);
23 void set_socket_rlimit(void);
24
25 int main(int argc, char **argv)
26 {
27 int listenfd,connfd;
28 int serv_port = 0;
29 char *progname = NULL;
30 int daemon_run = 0;
31 int opt;
32 int rv;
33 int i,j;
34 int found;
35 char buf[1024];
36
37 int epollfd;
38 struct epoll_event event;
39 struct epoll_event event_array[MAX_EVENTS];
40 int events;
41
42 struct option long_options[]=
43 {
44 {"daemon", no_argument, NULL, 'b'},
45 {"port", required_argument, NULL, 'p'},
46 {"help", no_argument, NULL, 'h'},
47 {NULL, 0, NULL, 0}
48 };
49
50 progname = basename(argv[0]);
51
52 while((opt = getopt_long(argc,argv,"bp:h",long_options,NULL))!=-1)
53 {
54 switch(opt)
55 {
56 case 'b':
57 daemon_run=1;
58 break;
59
60 case 'p':
61 serv_port = atoi(optarg);
62 break;
63
64 case 'h':
65 print_usage(progname);
66 return EXIT_SUCCESS;
67
68 default:
69 break;
70 }
71 }
72
73 if(!serv_port)
74 {
75 print_usage(progname);
76 return -1;
77 }
78
79 set_socket_rlimit();
80
81 if((listenfd=socket_server_init(NULL,serv_port))<0)
82 {
83 printf("ERROR:%s serverlisten on port %d failture\n",argv[0],serv_port);
84 return -2;
85 }
86 printf("%s server start to listen on port %d\n",argv[0],serv_port);
87
88 if(daemon_run)
89 {
90 daemon(0,0);
91 }
92
93 if((epollfd = epoll_create(MAX_EVENTS))<0)
94 {
95 printf("epoll_create() failture:%s\n", strerror(errno));
96 return -3;
97 }
98
99 //event.events = EPOLLIN|EPOLLET;
100 event.events = EPOLLIN;
101 event.data.fd = listenfd;
102
103 if(epoll_ctl(epollfd, EPOLL_CTL_ADD, listenfd, &event) < 0)
104 {
105 printf("epoll add listen socket failture:%s\n", strerror(errno));
106 return -4;
107 }
108
109 for(;;)
110 {
111 events=epoll_wait(epollfd, event_array, MAX_EVENTS, -1);
112 if(events<0)
113 {
114 printf("epoll failture:%s\n", strerror(errno));
115 break;
116 }
117 else if(events==0)
118 {
119 printf("epoll get timeout\n");
120 continue;
121 }
122 for(i=0; i<events; i++)
123 {
124 if((event_array[i].events&EPOLLERR)||(event_array[i].events&EPOLLHUP))
125 {
126 printf("epoll_wait get error on fd[%d]:%s\n",event_array[i].data.fd, strerror(errno));
127 epoll_ctl(epollfd,EPOLL_CTL_DEL, event_array[i].data.fd,NULL);
128 close(event_array[i].data.fd);
129 }
130
131 if(event_array[i].data.fd == listenfd)
132 {
133 if((connfd=accept(listenfd,(struct sockaddr *)NULL,NULL)) < 0)
134 {
135 printf("accept new client failture:%s\n",strerror(errno));
136 continue;
137 }
138 event.data.fd=connfd;
139 event.events=EPOLLIN;
140 if(epoll_ctl(epollfd,EPOLL_CTL_ADD,connfd, &event)<0)
141 {
142 printf("epoll add client socket failture:%s\n",strerror(errno));
143 close(event_array[i].data.fd);
144 continue;
145 }
146 printf("epoll add new client socket[%d] ok\n",connfd);
147 }
148 else
149 {
150 if((rv=read(event_array[i].data.fd,buf,sizeof(buf)))<=0)
151 {
152 printf("socket[%d] read failture or get disconncet and will be removed.\n",event_array[i].data.fd);
153 epoll_ctl(epollfd, EPOLL_CTL_DEL, event_array[i].data.fd, NULL);
154 continue;
155 }
156 else
157 {
158 printf("socket[%d] read get %d bytes data\n",event_array[i].data.fd);
159 for(j=0; j< rv; j++)
160 buf[j] = toupper(buf[j]);
161 if(write(event_array[i].data.fd, buf, rv) < 0)
162 {
163 printf("socket[%d] write failture:%s\n",event_array[i].data.fd, strerror(errno));
164 epoll_ctl(epollfd, EPOLL_CTL_DEL, event_array[i].data.fd, NULL);
165 close(event_array[i].data.fd);
166 }
167 }
168 }
169 }
170
171 }
172 Cleanup:
173 close(listenfd);
174 return 0;
175 }
176
177 static inline void print_usage(char *progname)
178 {
179 printf("Usage %s [OPTION]...\n", progname);
180 return;
181 }
182
183 int socket_server_init(char *listen_ip, int listen_port)
184 {
185 struct sockaddr_in servaddr;
186 int rv = 0;
187 int on = 1;
188 int listenfd;
189
190 if((listenfd = socket(AF_INET, SOCK_STREAM, 0)) < 0)
191 {
192 printf("Use socket() to create a TCP socket failture:%s\n",strerror(errno));
193 return -1;
194 }
195
196 setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &on,sizeof(on));
197
198 memset(&servaddr, 0, sizeof(servaddr));
199 servaddr.sin_family = AF_INET;
200 servaddr.sin_port = htonl(listen_port);
201
202 if(!listen_ip)
203 {
204 servaddr.sin_addr.s_addr = htonl(INADDR_ANY);
205 }
206 else
207 {
208 if(inet_pton(AF_INET, listen_ip, &servaddr.sin_addr) <= 0)
209 {
210 printf("inet_pton() set listen IP address failture.\n");
211 rv =-2;
212 goto Cleanup;
213 }
214 }
215 if(bind(listenfd, (struct sockaddr *) &servaddr, sizeof(servaddr)) < 0)
216 {
217 printf("Use bind() to bind the TCP socket failture:%s\n", strerror(errno));
218 rv =-3;
219 goto Cleanup;
220 }
221 if(listen(listenfd, 64)<0)
222 {
223 printf("Use bind() to bind the TCP socket failture:%s\n",strerror(errno));
224 rv =-4;
225 goto Cleanup;
226 }
227
228 Cleanup:
229 if(rv<0)
230 close(listenfd);
231 else
232 rv = listenfd;
233 return rv;
234 }
235
236 void set_socket_rlimit(void)
237 {
238 struct rlimit limit = {0};
239 getrlimit(RLIMIT_NOFILE, &limit);
240 limit.rlim_cur = limit.rlim_max;
241 setrlimit(RLIMIT_NOFILE, &limit);
242
243 printf("set socket open fd max count to %d\n", limit.rlim_max);
244 }
epoll的流程图和select的流程图基本相同。但epoll多了两个函数,即epoll_ctl()和epoll_wait()。
本文详细介绍了Linux的epoll事件驱动机制,对比了epoll与select、poll的优缺点。epoll适用于处理大量并发连接,解决了select的文件描述符数量限制和效率问题。epoll分为LT和ET两种触发模式,其中LT模式下事件不会丢失,而ET模式仅在状态变化时触发。文章还解析了epoll_create、epoll_ctl和epoll_wait的函数参数,并给出了使用epoll实现服务器端的代码示例。
221

被折叠的 条评论
为什么被折叠?



