网络编程(六):io_uring异步io机制


一、与epoll媲美的io_uring

1. io_uring原理

io_uring是linux5.1版本中引入的一种异步IO机制,它是一套全新的系统调用,它的设计目的是为了克服传统 Posix api 接口存在的限制,提供更高的性能和更好的可扩展性
请添加图片描述

  • io_uring通过使用共享内存环形缓冲区机制,io_uring 减少了应用程序与内核之间交互所需的系统调用次数,从而降低了开销,它会申请一块用户态与内核态共享的内存,并再这块内存中建立一个环形队列,以此来实现用户与内核的通信,避免不必要的拷贝以此提高性能。
  • 它的实现过程为每个io_uring实例映射一个fd,然后调用io_uring_setup系统调用分配一块共享内存,通过mmap映射到用户态。
    在这里插入图片描述

同步与异步:
同步:通常是顺序执行,需要等待函数返回结果
异步:无需马上进入等待,可以自行选择发送报文或等待

环形缓冲区:
也叫循环队列,比如一个队列有5个位置,之前存入5个数据会依次占满队列,那么当第六个数据存入时,会计算6除以5余1,于是第六个数据存入第一个位置并覆盖原有数据。


2. io_uring主要API

io_uring的3个系统调用api

初始化 io_uring环, 创建了一个io_uring实例并返回一个fd,用于后续io_uring操作
1. int io_uring_setup(unsigned entries, struct io_uring_params *p);

	+ 参数entries指定了io_uring 环的大小,
	+ 而io_uring_params 结构体包含了其他的一些初始化参数,如 io_uring 的特性和行为等



用于提交 I/O 操作到 io_uring 环,一旦 I/O 操作被提交它会被内核异步处理
2. int io_uring_enter(int fd, unsigned to_submit, unsigned min_complete, unsigned flags, sigset_t *sig);

	+ 参数fd是之前通过io_uring_setup()返回的文件描述符fd
	+ to_submit 指定要提交的I/O操作数量
	+ min_complete 指定最小要完成的I/O操作数量,
	+ flags 是控制 I/O 操作行为的一些标志
	+ sig 是一个可选的信号集合,在完成I/O操作时通知应用程序


用于注册文件描述符到 io_uring 环中,以便进行I/O操作
3. int io_uring_register(int fd, unsigned opcode, const void *arg, unsigned nr_args);

	+ 参数 fd 是文件描述符,
	+ opcode 是操作码,指定了要执行的操作类型,
	+ arg 是指向操作参数的指针,
	+ nr_args 是参数的数量

io_uring常用编程api

//1. io_uring_queue_init();
用于初始化 io_uring 队列。它会分配并初始化一个 io_uring 对象,并返回一个指向该对象的指针
struct io_uring *io_uring_queue_init(unsigned entries, struct io_uring_params *p);

//2. io_uring_prep_read(); / io_uring_prep_write();
用于准备读取和写入操作的函数。这些函数将指定的文件描述符和缓冲区等参数填充到 io_uring 操作数据结构中。其原型为:

void io_uring_prep_read(struct io_uring_sqe *sqe, int fd, void *buf, unsigned nbytes, off_t offset);
void io_uring_prep_write(struct io_uring_sqe *sqe, int fd, const void *buf, unsigned nbytes, off_t offset);

//3. io_uring_submit();
用于将提交的 I/O 操作发送到 io_uring 环。其原型为:

int io_uring_submit(struct io_uring *ring);

//4. io_uring_wait_cqe();
用于等待完成的 I/O 操作。当完成的操作可用时,它会返回一个指向完成的操作的指针。其原型为:

int io_uring_wait_cqe(struct io_uring *ring, struct io_uring_cqe **cqe_ptr);

//5. io_uring_cqe_seen();
用于告知内核该完成的操作已经被处理,以便内核可以继续使用该完成队列项。其原型为:

void io_uring_cqe_seen(struct io_uring *ring, struct io_uring_cqe *cqe);


3. io_uring实现tcp_server

int main(int argc, char *argv[]) {

	unsigned short port = 9999;
	int sockfd = init_server(port);

	struct io_uring_params params;
	memset(&params, 0, sizeof(params));

	struct io_uring ring;
	io_uring_queue_init_params(ENTRIES_LENGTH, &ring, &params);
	// 初始化submission queue 、 completed queue
	// 该函数调用了系统调用API : io_uring_setup
	
#if 0
	struct sockaddr_in clientaddr;	
	socklen_t len = sizeof(clientaddr);
	accept(sockfd, (struct sockaddr*)&clientaddr, &len);
#else

	struct sockaddr_in clientaddr;	
	socklen_t len = sizeof(clientaddr);
	set_event_accept(&ring, sockfd, (struct sockaddr*)&clientaddr, &len, 0);
	
#endif

	char buffer[BUFFER_LENGTH] = {0};

	while (1) {

		io_uring_submit(&ring);
		// 调用系统调用API: io_uring_enter

		struct io_uring_cqe *cqe;
		io_uring_wait_cqe(&ring, &cqe);
		// 取competed queue 的开始位置

		struct io_uring_cqe *cqes[128];
		int nready = io_uring_peek_batch_cqe(&ring, cqes, 128);  // epoll_wait
		// 从开始位置带出 至多【128】的元素

		int i = 0;
		for (i = 0;i < nready;i ++) {

			struct io_uring_cqe *entries = cqes[i];
			struct conn_info result;
			memcpy(&result, &entries->user_data, sizeof(struct conn_info));

			if (result.event == EVENT_ACCEPT) {

				set_event_accept(&ring, sockfd, (struct sockaddr*)&clientaddr, &len, 0);
				// 在该函数中调用了io_uring_prep_accept,其中与accept不同的点在多了第一个参数&ring
				// 提交请求到sqe里面
				//printf("set_event_accept\n"); //

				int connfd = entries->res;

				set_event_recv(&ring, connfd, buffer, BUFFER_LENGTH, 0);
				// 在该函数中调用了 io_uring_prep_recv,其中与recv不同的点在多了第一个参数&ring
				// 
				
			} else if (result.event == EVENT_READ) {  //

				int ret = entries->res;
				//printf("set_event_recv ret: %d, %s\n", ret, buffer); //

				if (ret == 0) {
					close(result.fd);
				} else if (ret > 0) {
					set_event_send(&ring, result.fd, buffer, ret, 0);
				}
			}  else if (result.event == EVENT_WRITE) {
  //

				int ret = entries->res;
				//printf("set_event_send ret: %d, %s\n", ret, buffer);

				set_event_recv(&ring, result.fd, buffer, BUFFER_LENGTH, 0);
			}
		}

		io_uring_cq_advance(&ring, nready);
		// 清空已经处理过的cq
	}

}

4. io_uring与epoll测试对比

epoll:每一次设置完,等待事件的触发
io_uring:每一次设置完,需要再次设置

写测试工具
1. 代码实现
2. io_uring与epoll的对比

测试结果对比
在这里插入图片描述


5. 思考问题

submission queue的entry与competed queue的entry区别?

是一个节点,共用的是一块内存
在这里插入图片描述

io_uring_peek_batch_cqe与io_uring_wait_cqe区别

  • 阻塞 vs 非阻塞
    io_uring_wait_cqe() 是一个阻塞式函数。当你调用它时,如果没有完成的 I/O 操作它会一直等待,直到有操作完成并且可用。
    io_uring_peek_batch_cqe() 是一个非阻塞式函数。无论是否有完成的 I/O 操作它都会立即返回。如果没有完成的操作,它返回 0。
  • 处理方式
    使用 io_uring_wait_cqe() 时,你等待操作完成,然后手动调用 io_uring_cqe_seen() 来告知内核这个完成队列项已经被处理过了。
    使用 io_uring_peek_batch_cqe() 时,你可以立即得到完成的操作指针数组,你可以处理这些操作而不需要手动通知内核。
  • 适用场景
    io_uring_wait_cqe() 适用于需要等待操作完成后再继续执行的情况,比如在单线程中进行 I/O 操作的情况。
    io_uring_peek_batch_cqe() 适用于不需要等待操作完成就可以继续执行的情况,比如在多线程中,可以同时处理多个完成的操作。

面试题:tcp和udp区别(思路方向)


二、window异步机制iocp

Reactor 模式

Proactor 模式

1. reactor (epoll) | proactor (iocp)模式区别

  • Reactor 模式要求 主线程(I/O 处理单元) 只负责监听文件描述符上是否有事件发生,有的话就立即将该事件通知工作线程(逻辑单元)。读写数据,接受新的连接,以及处理客户请求均在工作线程中完成。
  • Proactor 模式 将所有 I/O 操作都交给主线程和内核来处理, 工作线程仅仅负责业务逻辑。
    处理IO的方式不一样: reactor 同步IO 异步事件,iocp 异步IO异步事件 。

自己理解

  • reactor与iocp区别
    reactor同步IO, 当异步事件:accept、read、write、connect函数返回时,此时IO已经操作;
    iocp异步IO, 当异步事件:AcceptEx、WSARecv、WSASend、ConnectEx函数返回时, 此时在这个接口中的IO未操作。
  • 阻塞和非阻塞区别
    在IO检测过程中,如果IO未就绪,阻塞IO是阻塞线程等待就绪,非阻塞IO不阻塞线程等待,立刻返回

reactor
在这里插入图片描述
iocp (windows)


2. iocp 原理和具体实现

IOCP基本接口总结

IOCP工作流程(自己复述了解)

与Linux下的io_uring类似,创建IOCP后只投递请求,异步地获取结果

  1. socket绑定到IOCP中
  2. 投递具体I/O操作请求
  3. io检测和io操作在iocp中执行完成后,通知用户态操作结果
    在这里插入图片描述

重叠 IO

无需等待上一个io操作完成就能够投递下一个操作请求,多个io操作的请求投递能够堆叠在一起,实现性能的提升


优秀笔记:
1. 与epoll媲美的io_uring
2.【高性能网络4】异步io机制io_uring
3. windows异步机制iocp
参考学习:https://github.com/0voice

<think>我们正在讨论 `io_uring_submit` 函数,这是 `io_uring` 接口中的一个核心函数。根据站内引用和 `io_uring` 的机制,以下是详细解释: ### 1. **`io_uring_submit` 的作用** `io_uring_submit` 负责将提交队列(Submission Queue, SQ)中累积的 I/O 请求提交给内核执行[^1]。其函数原型通常为: ```c int io_uring_submit(struct io_uring *ring); ``` - **输入**:指向 `io_uring` 实例的指针 `ring`。 - **输出**:成功提交的 I/O 请求数量(非负整数),或错误码(负数)。 ### 2. **内部工作流程** #### (1) **用户填充 SQ** 用户通过以下步骤准备请求: 1. 调用 `io_uring_get_sqe(ring)` 获取一个空闲的提交队列条目(SQE)。 2. 使用 I/O 操作函数(如 `io_uring_prep_read`)填充 SQE。 3. 重复上述步骤,将多个请求加入 SQ。 #### (2) **提交请求** 调用 `io_uring_submit(ring)` 后: ```mermaid graph LR A[用户调用 io_uring_submit] --> B[内核检查 SQ 条目] B --> C{是否有新 SQE?} C -- 有 --> D[将 SQ 中的 SQE 批量提交给内核] C -- 无 --> E[返回 0] D --> F[更新 SQ 头指针] F --> G[返回提交的 SQE 数量] ``` #### (3) **内核处理** - 内核通过异步上下文(如内核线程 `iou-wrk`)处理 SQE[^2]。 - 若启用 `SQPOLL` 模式(通过 `IORING_SETUP_SQPOLL` 标志),内核线程会主动轮询 SQ,无需系统调用即可提交请求[^2]。 ### 3. **关键特性** | 特性 | 说明 | |---------------------|----------------------------------------------------------------------| | **批量提交** | 一次调用可提交多个 SQE,减少系统调用开销 | | **异步执行** | 提交后立即返回,不阻塞用户线程 | | **零拷贝优化** | 通过共享环形队列避免用户态与内核态的数据复制 | | **错误处理** | 提交失败返回负数错误码(如 `-EBUSY` 表示资源不足) | ### 4. **性能优化场景** #### (1) **高吞吐场景** ```c // 示例:一次性提交多个读取请求 struct io_uring_sqe *sqe; for (int i=0; i<4; i++) { sqe = io_uring_get_sqe(ring); io_uring_prep_read(sqe, fd, bufs[i], 4096, offset + i*4096); } int ret = io_uring_submit(ring); // 返回4(成功提交4个请求) ``` - **优势**:减少系统调用次数,提升 I/O 密集型应用性能。 #### (2) **与 `io_uring_wait_cqe` 配合** ```c io_uring_submit(ring); // 提交请求 io_uring_wait_cqe(ring, &cqe); // 等待完成事件 ``` - 需通过 `io_uring_wait_cqe` 获取完成事件(CQE)以确认操作结果。 ### 5. **错误码示例** | 错误码 | 原因 | |-----------------|-------------------------------| | `-EBUSY` | 内核处理队列已满 | | `-EFAULT` | 用户传递的 `ring` 指针无效 | | `-EINVAL` | 未初始化 `io_uring` 实例 | ### 6. **完整工作流示例** ```c #include <liburing.h> int main() { struct io_uring ring; io_uring_queue_init(8, &ring, 0); // 初始化队列深度为8 // 准备读取请求 struct io_uring_sqe *sqe = io_uring_get_sqe(&ring); io_uring_prep_read(sqe, fd, buf, 4096, 0); // 提交请求 int ret = io_uring_submit(&ring); // ret=1 表示成功提交1个请求 // 等待完成 struct io_uring_cqe *cqe; io_uring_wait_cqe(&ring, &cqe); if (cqe->res >= 0) { printf("读取 %d 字节数据\n", cqe->res); } io_uring_cqe_seen(&ring, cqe); io_uring_queue_exit(&ring); return 0; } ``` --- §§相关问题§§ 1. `io_uring` 的 SQPOLL 模式如何减少系统调用开销? 2. 如何处理 `io_uring_submit` 返回的错误码 `-EBUSY`? 3. 在哪些场景下应避免使用 `io_uring_submit` 的批量提交? 4. `io_uring` 与 `epoll` 在高并发网络编程中的性能对比如何? [^1]: io_uring 使用教程| io_uring 完全指南 | io_uring 实践指导 | io_uring 资料参考 [^2]: io_uring 触发内核线程的问题 iou-wrk 线程 io_uring 原理 io_uring SQPOLL 原理 </think> ### `io_uring_submit` 函数详解 `io_uring_submit` 是 Linux `io_uring` 异步 I/O 框架的核心函数,负责将提交队列(SQ)中的 I/O 请求批量提交给内核处理。以下是其关键机制和工作原理: --- #### 1. **核心功能** ```c int io_uring_submit(struct io_uring *ring); ``` - **作用**:将用户预先填充在提交队列(SQ)中的 I/O 请求(SQE)批量提交给内核 - **返回值**: - 成功:提交的 SQE 数量(≥0) - 失败:负的错误码(如 `-EBUSY` 表示队列满) --- #### 2. **工作流程** ```mermaid graph LR A[用户填充SQE] --> B[调用io_uring_submit] B --> C{是否启用SQPOLL模式?} C -- 是 --> D[内核线程自动消费SQE] C -- 否 --> E[触发系统调用提交请求] D & E --> F[请求进入内核处理流程] ``` 1. **用户准备 SQE** 通过 `io_uring_get_sqe()` 获取空闲条目,用 `io_uring_prep_read()` 等函数填充请求 2. **提交阶段** - **普通模式**:触发 `io_uring_enter()` 系统调用,将 SQ 条目提交到内核 - **SQPOLL 模式**(`IORING_SETUP_SQPOLL`): - 内核线程自动轮询 SQ,无需系统调用 - 仅在 SQ 无任务时休眠,有任务时自动唤醒处理 3. **内核处理** - 尝试 **非阻塞立即执行**(如 socket 数据已就绪) - 若需阻塞(如磁盘 I/O),转交 `iou-wrk` 内核线程异步处理 --- #### 3. **性能优化特性** | 特性 | 说明 | |---------------------|----------------------------------------------------------------------| | **批量提交** | 单次调用可提交多个 SQE,减少系统调用次数 | | **零拷贝队列** | 通过共享内存环(ring buffer)避免用户态-内核态数据复制 | | **无锁设计** | 通过内存屏障(memory barriers)同步,避免锁竞争 | | **SQPOLL 模式** | 内核线程主动轮询 SQ,完全消除系统调用开销[^2] | --- #### 4. **使用示例** ```c struct io_uring ring; io_uring_queue_init(32, &ring, 0); // 初始化队列深度32 // 准备读取请求 struct io_uring_sqe *sqe = io_uring_get_sqe(&ring); io_uring_prep_read(sqe, fd, buf, 4096, 0); // 提交请求(返回实际提交数) int submitted = io_uring_submit(&ring); if (submitted < 0) { perror("提交失败"); } ``` --- #### 5. **错误处理** | 错误码 | 原因 | 解决方案 | |-----------------|-------------------------------|------------------------------| | `-EBUSY` | SQ 或 CQ 队列满 | 增大队列深度或等待任务完成 | | `-EFAULT` | 无效的内存指针 | 检查 ring 参数有效性 | | `-EINVAL` | 未初始化或无效标志 | 检查 `io_uring_queue_init()` | --- #### 6. **高级技巧** 1. **批量提交优化** ```c // 一次性提交多个请求 for (int i=0; i<8; i++) { struct io_uring_sqe *sqe = io_uring_get_sqe(&ring); io_uring_prep_read(sqe, fd, bufs[i], 4096, i*4096); } io_uring_submit(&ring); // 单次系统调用提交8个请求 ``` 2. **绑定 CPU 核心**(SQPOLL 模式) ```c struct io_uring_params p = {0}; p.flags = IORING_SETUP_SQPOLL | IORING_SETUP_SQ_AFF; p.sq_thread_cpu = 2; // 绑定到CPU核心2 io_uring_queue_init_params(32, &ring, &p); ``` ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值