Linux网络编程——I/O复用函数之epoll

最新推荐文章于 2025-08-23 16:01:23 发布

转载最新推荐文章于 2025-08-23 16:01:23 发布 · 354 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/lianghe_work/article/details/46544567

Linux网络编程专栏收录该内容

49 篇文章

订阅专栏

本文介绍了epoll机制，它是Linux 2.6内核引入的一种I/O多路复用技术，用于高效地处理大量并发连接。文章详细解释了epoll的工作原理、四种主要接口函数（epoll_create、epoll_ctl、epoll_wait 和 close）的功能及用法，并提供了一个使用epoll进行UDP收发数据的示例程序。

一、epoll概述

epoll 是在 2.6 内核中提出的，是之前的 select() 和 poll() 的增强版本。相对于 select() 和 poll() 来说，epoll 更加灵活，没有描述符限制。epoll 使用一个文件描述符管理多个描述符，将用户关系的文件描述符的事件存放到内核的一个事件表中，这样在用户空间和内核空间的 copy 只需一次。

二、epoll操作过程需要的四个接口函数

四接口函数分别是：
#include <sys/epoll.h>
int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
int close(int epfd);
int epoll_create(int size);
功能：

该函数生成一个epoll专用的文件描述符（其余的接口函数一般都用使用这个专用的文件描述符）

参数：

size: 用来告诉内核这个监听的数目一共有多大，参数 size 并不是限制了 epoll 所能监听的描述符最大个数，只是对内核初始分配内部数据结构的一个建议。自从 Linux 2.6.8 之后，size 参数是被忽略的，也就是说可以填只有大于 0 的任意值。需要注意的是，当创建好 epoll 句柄后，它就是会占用一个 fd 值，在 linux 下如果查看 /proc/ 进程 id/fd/，是能够看到这个 fd 的，所以在使用完 epoll 后，必须调用 close() 关闭，否则可能导致 fd 被耗尽

返回值：
成功：epoll 专用的文件描述符
失败：-1

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

功能：

epoll 的事件注册函数，它不同于 select() 是在监听事件时告诉内核要监听什么类型的事件，而是在这里先注册要监听的事件类型

参数：

epfd: epoll 专用的文件描述符，epoll_create()的返回值

op: 表示动作，用三个宏来表示：

EPOLL_CTL_ADD：注册新的 fd 到 epfd 中；
EPOLL_CTL_MOD：修改已经注册的fd的监听事件；
EPOLL_CTL_DEL：从 epfd 中删除一个 fd；

fd: 需要监听的文件描述符

event: 告诉内核要监听什么事件，struct epoll_event 结构如下：

// 保存触发事件的某个文件描述符相关的数据（与具体使用方式有关）    
typedef union epoll_data {    
    void *ptr;    
    int fd;    
    __uint32_t u32;    
    __uint64_t u64;    
} epoll_data_t;    
    
// 感兴趣的事件和被触发的事件    
struct epoll_event {    
    __uint32_t events; /* Epoll events */    
    epoll_data_t data; /* User data variable */    
};

events 可以是以下几个宏的集合：

EPOLLIN ：表示对应的文件描述符可以读（包括对端 SOCKET 正常关闭）

EPOLLOUT：表示对应的文件描述符可以写；

EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；

EPOLLERR：表示对应的文件描述符发生错误；

EPOLLHUP：表示对应的文件描述符被挂断；

EPOLLET ：将 EPOLL 设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来说的。

EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个 socket 的话，需要再次把这个 socket 加入到 EPOLL 队列里

返回值：

成功：0
失败：-1

int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

功能：

等待事件的产生，收集在 epoll 监控的事件中已经发送的事件，类似于 select() 调用。

参数：

epfd: epoll 专用的文件描述符，epoll_create()的返回值

events: 分配好的 epoll_event 结构体数组，epoll 将会把发生的事件赋值到events 数组中（events 不可以是空指针，内核只负责把数据复制到这个 events 数组中，不会去帮助我们在用户态中分配内存）。

maxevents: maxevents 告之内核这个 events 有多大。

timeout: 超时时间，单位为毫秒，为 -1 时，函数为阻塞

返回值：

成功：返回需要处理的事件数目，如返回 0 表示已超时。

失败：-1

epoll 对文件描述符的操作有两种模式：LT（level trigger）和 ET（edge trigger）。LT 模式是默认模式，LT 模式与 ET 模式的区别如下：

LT 模式：当 epoll_wait 检测到描述符事件发生并将此事件通知应用程序，应用程序可以不立即处理该事件。下次调用 epoll_wait 时，会再次响应应用程序并通知此事件。

ET 模式：当 epoll_wait 检测到描述符事件发生并将此事件通知应用程序，应用程序必须立即处理该事件。如果不处理，下次调用 epoll_wait 时，不会再次响应应用程序并通知此事件。

ET 模式在很大程度上减少了 epoll 事件被重复触发的次数，因此效率要比 LT 模式高。epoll 工作在 ET 模式的时候，必须使用非阻塞套接口，以避免由于一个文件句柄的阻塞读/阻塞写操作把处理多个文件描述符的任务饿死

int close(int epfd);
在用完之后，记得用close()来关闭这个创建出来的epoll句柄

三、epoll示例：

接下来我们epoll实现udp同时收发数据

#include <string.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/select.h>
#include <sys/time.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <sys/epoll.h>
#include <errno.h>
#define OPEN_MAX 100
 
int main(int argc, char *argv[])
{
	struct epoll_event event;   // 告诉内核要监听什么事件  
    struct epoll_event wait_event; //内核监听完的结果
	
	//1.创建tcp监听套接字
	int sockfd = socket(AF_INET, SOCK_STREAM, 0);
	
	//2.绑定sockfd
	struct sockaddr_in my_addr;
	bzero(&my_addr, sizeof(my_addr));
	my_addr.sin_family = AF_INET;
	my_addr.sin_port = htons(8001);
	my_addr.sin_addr.s_addr = htonl(INADDR_ANY);
	bind(sockfd, (struct sockaddr *)&my_addr, sizeof(my_addr));
	
	//3.监听listen
	listen(sockfd, 10);
	 
	//4.epoll相应参数准备
	int fd[OPEN_MAX];
	int i = 0, maxi = 0;
	memset(fd,-1, sizeof(fd));
	fd[0] = sockfd;
	
	int epfd = epoll_create(10); // 创建一个 epoll 的句柄，参数要大于 0， 没有太大意义  
    if( -1 == epfd ){  
        perror ("epoll_create");  
        return -1;  
    }  
      
    event.data.fd = sockfd;     //监听套接字  
    event.events = EPOLLIN; // 表示对应的文件描述符可以读
	
	//5.事件注册函数，将监听套接字描述符 sockfd 加入监听事件  
    int ret = epoll_ctl(epfd, EPOLL_CTL_ADD, sockfd, &event);  
    if(-1 == ret){  
        perror("epoll_ctl");  
        return -1;  
    } 
	
	//6.对已连接的客户端的数据处理
	while(1)
	{
		// 监视并等待多个文件（标准输入，udp套接字）描述符的属性变化（是否可读）  
        // 没有属性变化，这个函数会阻塞，直到有变化才往下执行，这里没有设置超时   
        ret = epoll_wait(epfd, &wait_event, maxi+1, -1); 
		
		//6.1监测sockfd(监听套接字)是否存在连接
		if(( sockfd == wait_event.data.fd )   
            && ( EPOLLIN == wait_event.events & EPOLLIN ) )
		{
			struct sockaddr_in cli_addr;
			int clilen = sizeof(cli_addr);
			
			//6.1.1 从tcp完成连接中提取客户端
			int connfd = accept(sockfd, (struct sockaddr *)&cli_addr, &clilen);
			
			//6.1.2 将提取到的connfd放入fd数组中，以便下面轮询客户端套接字
			for(i=1; i<OPEN_MAX; i++)
			{
				if(fd[i] < 0)
				{
					fd[i] = connfd;
					event.data.fd = connfd; //监听套接字  
					event.events = EPOLLIN; // 表示对应的文件描述符可以读
					
					//6.1.3.事件注册函数，将监听套接字描述符 connfd 加入监听事件  
					ret = epoll_ctl(epfd, EPOLL_CTL_ADD, connfd, &event);  
					if(-1 == ret){  
						perror("epoll_ctl");  
						return -1;  
					} 
					
					break;
				}
			}
			
			//6.1.4 maxi更新
			if(i > maxi)
				maxi = i;
				
			//6.1.5 如果没有就绪的描述符，就继续epoll监测，否则继续向下看
			if(--ret <= 0)
				continue;
		}
		
		//6.2继续响应就绪的描述符
		for(i=1; i<=maxi; i++)
		{
			if(fd[i] < 0)
				continue;
			
			if(( fd[i] == wait_event.data.fd )   
            && ( EPOLLIN == wait_event.events & (EPOLLIN|EPOLLERR) ))
			{
				int len = 0;
				char buf[128] = "";
				
				//6.2.1接受客户端数据
				if((len = recv(fd[i], buf, sizeof(buf), 0)) < 0)
				{
					if(errno == ECONNRESET)//tcp连接超时、RST
					{
						close(fd[i]);
						fd[i] = -1;
					}
					else
						perror("read error:");
				}
				else if(len == 0)//客户端关闭连接
				{
					close(fd[i]);
					fd[i] = -1;
				}
				else//正常接收到服务器的数据
					send(fd[i], buf, len, 0);
				
				//6.2.2所有的就绪描述符处理完了，就退出当前的for循环，继续poll监测
				if(--ret <= 0)
					break;
			}
		}
	}
	return 0;
}

运行结果：