Linux文件I/O心得

I/O模型

一、阻塞 I/O 模型

进程读取数据时会一直阻塞等待,等待内核通过系统调用对数据进行处理,直到数据包到达且被复制到缓冲区或者发生错误时才返回。

二、非阻塞 I/O 模型

进程读取数据时可以通过 MSG_DONTWAIT 标志位非阻塞读,此时如果缓冲区没有数据,会直接返回一个 EAGAIN 或 EWOULDBLOCK 错误,而不会让进程一直等待。但这也意味着如果进程想要读取数据就需要不断发起读请求,直到读取到数据为止。

非阻塞 I/O 模型的特点是实现难度低,应用开发较为容易。但是进程轮询会消耗大量的 CPU 资源,不适用于并发量较大的应用。

三、I/O 复用模型

I/O 复用模型的思路就是将多个进程的 I/O 注册到一个复用器(select、poll 或 epoll)上,并由该复用器对数据读取进行监听

以 select 为例,如果 select 监听的 I/O 在内核缓冲区都没有可读数据,select 调用进程就会被阻塞。但只要当任一 I/O 在内核缓冲区中有可读数据时,select 调用就会返回,这时 select 进程再去通知 I/O 进程读取内核中准备好的数据。

可以看到,在采用 I/O 复用模型后,尽管有多个进程注册了 I/O,但只有一个 select 进程会被阻塞。

Linux 中 I/O 复用的实现方式主要有 select、poll 和 epoll。

3.1 select
select 基于轮询的方式进行对文件描述符进行监听,因此需要在内核反复遍历传递进来的所有文件描述符,这在注册了大量 I/O 时会导致性能急剧下降。此外,每次调用 select 时都需要把文件描述符集合从用户态拷贝到内核态,这个开销在文件描述符很多时也会很大。同时 select 的监听数量也有限制。

3.2 poll
poll 与 select 一样,也是基于轮询的方式进行对文件描述符进行监听,只不过修改了文件描述符集合的结构,没有了监听数量的限制。

但是轮询监听和整体复制导致的开销问题依然没有解决。

3.3 epoll
epoll 从 Linux 2.5.44 后开始支持,底层数据结构为红黑树,增删改综合效率高。而且 epoll 模型修改主动轮询为被动通知,这里的被动通知主要指的是执行 epoll_wait() 函数后,程序会等待内核通知,而无需轮询所有的文件描述符查看状态。同时由 mmap 实现内核与用户空间的消息传递,监听数量大效率高。


四、信号驱动 I/O 模型

当进程发起一个 I/O 操作,会通过系统调用 sigaction() 或 siganal()向内核注册一个信号处理函数,然后进程返回不阻塞。当内核中有数据就绪时会发送一个信号给读取进程,读取进程会在信号处理回调函数中调用 I/O 读取数据。

信号驱动 I/O 模型基于回调机制实现,但应用开发难度较大,且实际应用较少。

五、异步 I/O 模型 

当进程发起一个 I/O 操作后会告知内核处理 I/O,随后该进程直接返回不阻塞,但也不能立刻得到结果。等到内核把整个 I/O 处理完后会通知该进程,如果 I/O 操作成功则进程直接获取到数据。

inode

inode的作用可以总结为:

  1. 唯一标识文件或目录:每个文件或目录都有一个唯一的inode号码,通过这个号码可以直接访问并操作对应的文件或目录。
  2. 存储文件元数据:包括文件的权限、拥有者、大小、时间戳、链接数等信息,但不包括文件名。
  3. 提升文件系统性能:文件系统通过inode来组织和管理存储空间,提高了文件系统的性能和效率。
  4. 硬链接:允许多个文件名指向同一个inode,这是Linux文件系统中硬链接的基础

 软链接和硬链接

文件描述符

文件描述符是一个非负整数,用于唯一标识一个正在打开的文件。文件描述符是操作系统内核为每个进程维护的一种机制,它提供了一种抽象的方法来访问文件、套接字和其它I/O资源。

  1. 整数标识符:文件描述符是一个整数,它作为文件在进程中的唯一标识符。在大多数系统中,0、1、2分别被称为标准输入、标准输出和标准错误输出。

  2. 资源引用:文件描述符不仅仅用于文件,它也可以表示管道、套接字、设备和其它形式的I/O资源。

  3. 打开文件表:每个进程都有一个打开文件表,记录了所有当前打开的文件描述符及其状态信息。

  4. 系统调用:进程通过系统调用(如open()read()write()等)来操作文件描述符,进行读写、定位和关闭等操作。

  5. 文件描述符的限制:每个进程能够打开的文件描述符数量通常受到操作系统的限制,可以通过修改操作系统的配置参数来调整这个限制。

ps:文件描述符0、1、2分别被称为标准输入、标准输出和标准错误输出,所以是从3开始;

每创建一次子进程/使用open()函数,引用计数会+1;进程每使用一次close()函数,引用计数会-1。当引用计数变为 0, 则会释放 struct file 相关的所有资源。

I/O多路复用

作用和意义
1 )节省资源: IO 多路复用允许 单个进程或线程 同时监视多个文件描述符,而不是为每个 I/O 操作创建一个线程或进程。只需要维护文件描述符,极大地提高了节约了资源,减少了系统开销。
2 )效率高:使用 IO 多路复用 省去了进程或线程上下文切换的开销 ,提升了处理效率,减少了系统资源(如内存和 CPU 时间)的消耗,从而提高了应用程序的整体性能和响应速度。
3 )简化编程模型:尽管 IO 多路复用增加了代码的复杂性,但它 简化了高并发 程序的设计,使得程序员可以更容易地管理多个 I/O 操作,而不必处理大量的线程同步问题。
应用场景
1 )网络服务器:例如 HTTP 服务器、 FTP 服务器等需要同时处理大量客户端请求的场景。
2 )聊天系统:实时聊天应用程序需要高效地管理多个用户的消息。
3 )监控系统:例如日志监控、数据库连接池管理等需要同时监视多个输入源的系统。

通常使用epoll ,其 底层是基于红黑树(一种平衡二叉树)实现的,且通过维护就绪事件链表,效率更高

引用链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值