Linux 文件I/O编程

本文介绍了计算机系统中I/O的基本概念,包括高级I/O与低级I/O的区别及其优缺点,文件描述符的作用和使用,以及文件和内存映射的工作原理。详细解释了mmap函数如何将文件映射到内存中,以及共享内存作为一种高效的进程间通信机制是如何工作的。

基础概念

I/O

高级I/O:带缓冲区的I/O,比如ANSI C提供的标准I/O库,比如fopen,fread,fwrite等,会在系统调用前采用一定的策略。

  • 优点:比不带缓冲的I/O安全
  • 缺点:比不带缓冲的I/O速度慢

低级I/O:不带缓冲区的I/O,是Linux提供的系统调用,比如函数open,read,write等。

  • 优点:速度快。
  • 缺点:编程复杂一些,没有高级I/O安全

文件描述符

文件描述符:是一个非负整数。在linux中,所有对设备或者文件的操作都是通过文件描述符进行的。每当打开或者创建一个文件的时候,内核向进程返回一个文件描述符。之后对文件的操作就可以只通过文件描述符进行。内核记录着有关这个打开文件的信息。

  • 在形式上是一个非负整数。实际上,它是一个索引值,指向内核为每一个进程所维护的该进程打开文件的记录表。
  • 文件描述符的有效范围是 0 到 OPEN_MAX。一般来说,每个进程最多可以打开 64 个文件(0 — 63)。对于 FreeBSD 5.2.1、Mac OS X 10.3 和 Solaris 9 来说,每个进程最多可以打开文件的多少取决于系统内存的大小,int 的大小,以及系统管理员设定的限制。Linux 2.4.22 强制规定最多不能超过 1,048,576 。

一个进程启动的时候,默认打开三个文件,标准输入,标准输出,标准错误。对应的文件描述符分别是0,1,2。POSIX 定义了 STDIN_FILENO、STDOUT_FILENO 和 STDERR_FILENO 来代替 0、1、2。这三个符号常量的定义位于头文件 unistd.h

文件描述符是由无符号整数表示的句柄,进程使用它来标识打开的文件。文件描述符与包括相关信息(如文件的打开模式、文件的位置类型、文件的初始类型等)的文件对象相关联,这些信息被称作文件的上下文。

文件描述符和文件指针是可以相互转换的。

建立文件和内存映射

文件和内存映射:将普通的文件映射到内存中。

  • 原理:普通文件被映射到进程地址空间,所以进程可以像访问普通内存一样对文件进行访问,也就不需要各种read或者write系统调用操作了。
  • 优点:可以让用户程序通过直接访问内存来访问文件,相比传统的方式(在用户空间和内核空间之间相互复制数据)效率更高。
  • 特点:面向流的设备不能mmap。mmap的实现与硬件有关。

操作:系统提供了mmap函数将普通文件映射到内存中。函数如下:

void* mmap(void* start,size_t length,int prot,int flags,int fd,off_t offset);

限制条件:mmap()必须以PAGE_SIZE为单位进行映射,而内存也只能以页为单位进行映射,若要映射非PAGE_SIZE整数倍的地址范围,要先进行内存对齐,强行以PAGE_SIZE的倍数大小进行映射。

mmap与共享内存

共享内存:允许两个或者多个进程共享一个给定的存储区。数据不需要来回复制,所以是最快的一种进程间通信(IPC)机制。两个不同进程A、B共享内存的意思是,同一块物理内存被映射到进程A、B各自的进程地址空间。进程A可以即时看到进程B对共享内存中数据的更新,反之亦然。由于多个进程共享同一块内存区域,必然需要某种同步机制,互斥锁和信号量都可以。

共享内存的实现:

  • 可以通过mmap()映射普通文件机制来实现
  • 系统V共享内存机制实现。

mmap机制:

  • 原理:在磁盘建立一个文件,每个进程存储器里面单独开辟一个空间来进行映射。
  • 优点:存储量大,大于主存
  • 缺点:进程间读取和写入速度比主存慢。

shm机制:

  • 原理:每个进程的共享内存都直接映射到实际物理存储器(主存)中。
  • 优点:进程间访问速度比磁盘块
  • 缺点:存储量小

注:一个共享内存区域可以看作是特殊文件系统shm中的一个文件,shm的安装点在交换区上。

Q:共享内存为什么快?
A:对于像管道和消息队列等通信方式,则需要在内核和用户空间进行四次的数据拷贝,而共享内存则只需要两次:一次从输入文件到共享内存区,另一次从共享内存区到输出文件。进程之间在共享内存时,并不总是读写少量数据后就解除映射,有新的通信时,再重新建立共享内存区域。而是保持共享区域,直到通信完毕为止,这样,数据内容一直保存在共享内存中,并没有写回文件。共享内存中的内容往往是在解除映射时才写回文件的。因此,采用共享内存的通信方式效率是非常高的。

Q:内核怎样保证各个进程寻址到同一个共享内存区域的内存页面?
A: 1、page cache及swap cache中页面的区分:一个被访问文件的物理页面都驻留在page cache或swap cache中,一个页面的所有信息由struct page来描述。struct page中有一个域为指针mapping ,它指向一个struct address_space类型结构。page cache或swap cache中的所有页面就是根据address_space结构以及一个偏移量来区分的。

2、文件与address_space结构的对应:一个具体的文件在打开后,内核会在内存中为之建立一个struct inode结构,其中的i_mapping域指向一个address_space结构。这样,一个文件就对应一个address_space结构,一个address_space与一个偏移量能够确定一个page cache 或swap cache中的一个页面。因此,当要寻址某个数据时,很容易根据给定的文件及数据在文件内的偏移量而找到相应的页面。

3、进程调用mmap()时,只是在进程空间内新增了一块相应大小的缓冲区,并设置了相应的访问标识,但并没有建立进程空间到物理页面的映射。因此,第一次访问该空间时,会引发一个缺页异常。

4、对于共享内存映射情况,缺页异常处理程序首先在swap cache中寻找目标页(符合address_space以及偏移量的物理页),如果找到,则直接返回地址;如果没有找到,则判断该页是否在交换区(swap area),如果在,则执行一个换入操作;如果上述两种情况都不满足,处理程序将分配新的物理页面,并把它插入到page cache中。进程最终将更新进程页表。
注:对于映射普通文件情况(非共享映射),缺页异常处理程序首先会在page cache中根据address_space以及数据偏移量寻找相应的页面。如果没有找到,则说明文件数据还没有读入内存,处理程序会从磁盘读入相应的页面,并返回相应地址,同时,进程页表也会更新。

5、所有进程在映射同一个共享内存区域时,情况都一样,在建立线性地址与物理地址之间的映射之后,不论进程各自的返回地址如何,实际访问的必然是同一个共享内存区域对应的物理页面。

参考资料

mmap(一种内存映射文件的方法)-百度百科
文件描述符-百度百科
共享内存

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值