Linux 中的五种 I/O 模型

本文介绍了 Linux 下五种 I/O 模型:阻塞 I/O、非阻塞 I/O、I/O 复用、信号驱动 I/O 和异步 I/O 的工作原理及特点,并对比了 select、poll 和 epoll 的优劣。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


在这里插入图片描述

一、阻塞 I/O 模型

进程读取数据时会一直阻塞等待,等待内核通过系统调用对数据进行处理,直到数据包到达且被复制到缓冲区或者发生错误时才返回。

I/O 中的阻塞等待一般指的是等待内核数据准备好数据从内核态拷贝到用户态这两个过程

阻塞 I/O 模型的特点是实现难度低,应用开发较为容易。但由于每次 I/O 请求都会阻塞进程,所以需要为每个请求分配一个进程或线程以确保及时响应,系统开销大,并不适用于并发量较大的应用。


二、非阻塞 I/O 模型

进程读取数据时可以通过 MSG_DONTWAIT 标志位非阻塞读,此时如果缓冲区没有数据,会直接返回一个 EAGAINEWOULDBLOCK 错误,而不会让进程一直等待。但这也意味着如果进程想要读取数据就需要不断发起读请求,直到读取到数据为止。

非阻塞 I/O 模型的特点是实现难度低,应用开发较为容易。但是进程轮询会消耗大量的 CPU 资源,不适用于并发量较大的应用。


三、I/O 复用模型

I/O 复用模型的思路就是将多个进程的 I/O 注册到一个复用器(select、poll 或 epoll)上,并由该复用器对数据读取进行监听。

以 select 为例,如果 select 监听的 I/O 在内核缓冲区都没有可读数据,select 调用进程就会被阻塞。但只要当任一 I/O 在内核缓冲区中有可读数据时,select 调用就会返回,这时 select 进程再去通知 I/O 进程读取内核中准备好的数据。

可以看到,在采用 I/O 复用模型后,尽管有多个进程注册了 I/O,但只有一个 select 进程会被阻塞。

Linux 中 I/O 复用的实现方式主要有 select、poll 和 epoll。

3.1 select

select 基于轮询的方式进行对文件描述符进行监听,因此需要在内核反复遍历传递进来的所有文件描述符,这在注册了大量 I/O 时会导致性能急剧下降。此外,每次调用 select 时都需要把文件描述符集合从用户态拷贝到内核态,这个开销在文件描述符很多时也会很大。同时 select 的监听数量也有限制

3.2 poll

poll 与 select 一样,也是基于轮询的方式进行对文件描述符进行监听,只不过修改了文件描述符集合的结构,没有了监听数量的限制

但是轮询监听整体复制导致的开销问题依然没有解决。

3.3 epoll

epoll 从 Linux 2.5.44 后开始支持,底层数据结构为红黑树,增删改综合效率高。而且 epoll 模型修改主动轮询为被动通知,这里的被动通知主要指的是执行 epoll_wait() 函数后,程序会等待内核通知,而无需轮询所有的文件描述符查看状态。同时由 mmap 实现内核与用户空间的消息传递,监听数量大效率高。

可以将 epoll 理解为 event poll,epoll 会通知其他进程哪个流发生了哪种 I/O 事件,所以 epoll 是事件驱动

epoll 触发方式分为水平触发边缘触发

  • 水平触发(LT):默认触发方式,只要该文件描述符还有数据可读,每次 epoll_wait() 都会返回它的事件,提醒数据处理进程去操作。
  • 边缘触发(ET):高速触发方式,只会提示一次,无论文件描述符中是否还有数据可读,在下次数据流入之前都不会再提示。所以在 ET 模式读取时是一定要将数据尽量一次全部取出。

四、信号驱动 I/O 模型

当进程发起一个 I/O 操作,会通过系统调用 sigaction()siganal()向内核注册一个信号处理函数,然后进程返回不阻塞。当内核中有数据就绪时会发送一个信号给读取进程,读取进程会在信号处理回调函数中调用 I/O 读取数据。

信号驱动 I/O 模型基于回调机制实现,但应用开发难度较大,且实际应用较少。


五、异步 I/O 模型

当进程发起一个 I/O 操作后会告知内核处理 I/O,随后该进程直接返回不阻塞,但也不能立刻得到结果。等到内核把整个 I/O 处理完后会通知该进程,如果 I/O 操作成功则进程直接获取到数据。

异步 I/O 模型与信号驱动模型的主要区别在于:信号驱动 I/O 是由内核通知应用程序何时启动一个I/O操作,而异步 I/O 模型是由内核通知应用程序 I/O 操作何时完成,不需要该进程进行数据读取

无论阻塞 I/O 还是非阻塞 I/O 都是同步调用。因为数据读取时,内核将数据从内核空间拷贝到用户空间的过程都是需要等待的,也就是说这个过程是同步的,如果内核的拷贝效率不高,就会在这个同步过程中等待比较长的时间。而真正的异步 I/O 是内核数据准备好数据从内核态拷贝到用户态这两个过程都不用等待

异步 I/O 能够充分利用 DMA 特性,让 I/O 操作与计算重叠。但要实现真正的异步 I/O 需要操作系统做大量的工作。目前 Windows 下通过 IOCP 实现了真正的异步 I/O,Linux 系统在 Linux2.6 才引入 AIO 且并不完善,因此在 Linux 下实现高并发网络编程时仍然是以 I/O 复用模型为主

基于同步异步,有 Reactor 和 Proactor 两种网络模式:

  • Reactor 是非阻塞同步网络模式,感知的是就绪可读写事件。在每次感知到可读就绪事件后,需要应用进程主动完成数据读取,也就是要应用进程主动将 socket 接收到缓存中的数据读到应用进程内存中,这个过程是同步的,读取完数据后应用进程才能处理数据。如 Linux 中的 epoll、Java 中的 NIO。
  • Proactor 是异步网络模式,感知的是读写已完成事件。在发起异步读写请求时,需要传入数据缓冲区的地址等信息,这样系统内核才可以自动帮我们把数据的读写工作完成。这里的读写工作全程由操作系统来做,并不需要像 Reactor 那样还需要应用进程主动读写数据,操作系统完成读写工作后,就会通知应用进程直接处理数据。

在这里插入图片描述

### Linux 五种 I/O 模型详解 #### 阻塞 I/O (Blocking I/O) 在阻塞 I/O 模型中,当应用程序发出 I/O 请求时,进程会进入等待状态直到操作完成。在此期间,CPU 不会被分配给该进程,从而导致资源浪费。这种模型的特点是简单直观,但在高并发场景下性能较差[^1]。 #### 非阻塞 I/O (Non-blocking I/O) 非阻塞 I/O 的特点是调用不会使进程挂起。如果数据尚未准备好,则函数会立即返回一个错误码;只有当数据可用时才会成功读取或写入。为了获取数据,应用层需要不断轮询设备的状态,这种方式虽然提高了 CPU 利用率,但也带来了额外开销[^4]。 #### I/O 多路复用 (I/O Multiplexing) 利用 `select` 或者更高效的 `poll`, `epoll` 函数可以实现单个线程同时监控多个文件描述符上的事件变化情况。一旦某个 FD 就绪即可对其进行相应的操作而无需反复查询每一个连接是否可读/写。这种方法显著减少了上下文切换次数并提升了服务器端处理能力[^3]。 #### 信号驱动式 I/O (Signal-driven I/O) 此模式允许内核向用户空间发送 SIGIO 信号告知特定条件已经满足(比如套接字上有新数据到达),之后再由专门设置好的 handler 来负责实际的数据传输动作。相比前几种方法它不需要主动询问或者长时间停留于某一点上,但是编写起来较为复杂且存在一定的局限性。 #### 异步 I/O (Asynchronous I/O) 真正意义上的 AIO 是指提交了一个请求后就可以去做别的事情了,等到操作系统完成了所有的底层工作并将最终的结果反馈回来为止整个流程才算结束。这意味着在整个过程中既不会有显式的等待也不会涉及到任何手动干预的行为——一切都是自动化的。 ```python import asyncio async def main(): print('Waiting...') await asyncio.sleep(2) # Simulate an asynchronous operation. print('Done!') # Run the event loop to execute coroutine objects. asyncio.run(main()) ``` 上述代码展示了如何使用 Python 中的 `asyncio` 库来模拟异步 I/O 操作。通过定义协程并通过事件循环运行它们,可以在不阻塞主线程的情况下执行耗时任务。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值