目录
一、文件描述符及其在系统中的管理
当你打开文件或设备时,操作系统会为你分配一个被称为“文件描述符”的标识符。想象一下,你身处一个巨大的图书馆,这里存放着无数的书籍(文件)。为了方便管理和查找,每本书都会有一个唯一的编号(文件描述符)。当你想阅读某本书时,只需要告诉图书管理员这个编号,他就能迅速找到对应的书籍。
在计算机系统中,情况也是如此。每个进程都可以打开多个文件,而系统中存在大量进程,这就意味着系统中任何时刻都可能有无数打开的文件。操作系统需要一种高效的方式来管理这些文件。为此,它使用了一种名为 struct file
的结构体来表示每个打开的文件,并将这些结构体以双链表的形式连接起来。这样,对文件的管理就转化为对这个双链表的增删查改等操作。
为了区分不同进程所打开的文件,操作系统需要建立进程和文件之间的对应关系。当一个程序运行起来时,操作系统会将其代码和数据加载到内存,并为其创建相关的数据结构,如 task_struct
、mm_struct
和页表等。task_struct
中有一个指针,指向一个名为 files_struct
的结构体。在这个结构体中,有一个名为 fd_array
的指针数组,这个数组的下标就是文件描述符。
例如,当进程打开 log.txt
文件时,操作系统会将该文件从磁盘加载到内存,形成一个 struct file
。这个结构体会被添加到文件双链表中,并且其地址会被存储到 fd_array
数组的下标为 3 的位置。这样,当进程需要对这个文件进行操作时,只需要使用文件描述符 3,就能找到对应的文件信息。
值得注意的是,当程序执行写操作时,数据并非直接落盘,而是先进入内核缓冲区。系统会定期将缓冲区内容批量写入磁盘,这种延迟写入机制极大提升了I/O效率。这也是为什么突然断电可能导致数据丢失的原因。这类似于我们在写笔记时,先在草稿纸上记录内容,稍后再将草稿纸上的内容整理到正式的笔记本上。
二、进程默认打开的文件描述符
当一个进程被创建时,它会自动打开三个文件描述符,它们分别是:
-
0号描述符:标准输入(stdin),默认指向键盘。
-
1号描述符:标准输出(stdout),默认指向显示器。
-
2号描述符:标准错误(stderr),也指向显示器。
🌵为什么进程创建时默认打开0、1、2三个文件描述符?
在电脑的世界里,一个程序运行起来就被叫做一个进程。这个进程要想和外面的世界交流,比如获取输入、吐出结果,就得通过一些特别的渠道,这些渠道在电脑系统里被称作“文件描述符”,就像是一个个编号的小管道。
0、1、2这三个文件描述符就是专门为进程准备的最基本的交流渠道:
0号文件描述符,就好比是这个进程的“嘴巴”,它默认连接到键盘,意思就是当进程需要“吃”数据的时候,它可以直接从键盘这个“饭碗”里获取,比如我们用键盘输入文字,程序就能通过0号管道把文字读进去。
1号文件描述符,就像是进程的“嘴巴”吐出东西的那面,它默认连接到显示器,每当进程想把结果或者信息展示给用户的时候,就通过这个1号管道,把信息送到显示器上,用户就能在屏幕上看到,比如程序运行后显示的结果。
2号文件描述符,相当于进程专门设置的“垃圾出口”,它也连接到显示器,但主要是用来吐出那些“哎呀,我出错了”之类的信息。这样,正常的输出信息和出错的信息就可以分开,用户能更容易地知道哪里出了问题。
电脑系统把这三个小管道默认打开,是为了让进程一出生就有能力顺畅地和外界交流,就像一个人一出生就有嘴巴能吃能说,眼睛能看一样,这是为了让进程能够快速、方便地工作。
三、磁盘文件与内存文件的区别
磁盘文件和内存文件之间的关系类似程序和进程的关系。磁盘文件就像一本存储在书架上的书(程序),当你需要阅读时,将其取下来并打开(加载到内存)就变成了内存文件(进程)。
磁盘文件主要由两部分构成:文件内容(你存储的数据,如文字、图片等)和文件属性(元信息,如文件名、大小、创建时间等)。当磁盘文件被加载到内存时,系统首先会加载文件的属性信息。只有当你需要对文件内容进行读取、写入等操作时,文件的数据才会被延后加载到内存中。这类似于你买了一本书,一开始可能只是快速浏览封面和目录(元信息),只有在需要深入阅读时,才会翻到具体章节(数据内容)。
四、文件描述符的分配规则
1. 文件描述符的起始分配
我们通过一个代码示例来说明文件描述符的分配规则。假设连续打开五个文件:
#include <stdio.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <fcntl.h>
int main()
{
umask(0);
int fd1 = open("log1.txt", O_RDONLY | O_CREAT, 0666);
int fd2 = open("log2.txt", O_RDONLY | O_CREAT, 0666);
int fd3 = open("log3.txt", O_RDONLY | O_CREAT, 0666);
int fd4 = open("log4.txt", O_RDONLY | O_CREAT, 0666);
int fd5 = open("log5.txt", O_RDONLY | O_CREAT, 0666);
printf("fd1:%d\n", fd1);
printf("fd2:%d\n", fd2);
printf("fd3:%d\n", fd3);
printf("fd4:%d\n", fd4);
printf("fd5:%d\n", fd5);
return 0;
}
运行结果显示五个文件描述符从 3 开始连续递增。这是因为进程创建时已经默认打开了标准输入流(0)、标准输出流(1)和标准错误流(2)。因此,fd_array
数组的 0、1、2 位置已经被占用,所以后续的文件描述符只能从 3 开始分配。
2. 关闭文件描述符对分配的影响
如果我们先关闭文件描述符 0,再打开五个文件:
close(0);
此时,第一个打开的文件获取到的文件描述符将是 0,而后续打开的文件描述符仍然从 3 开始依次递增。这是因为文件描述符的分配总是从最小的未被使用的
fd_array
数组下标开始。
若我们在打开五个文件前,关闭文件描述符 0 和 2:
close(0);
close(2);
那么前两个打开的文件获取到的文件描述符将分别是 0 和 2,之后打开的文件描述符从 3 开始依次递增。这表明文件描述符的分配会优先使用最小的未被使用的下标,即使这些下标之前曾被关闭。
3. 总结分配规则
文件描述符的分配遵循以下规则:
-
如果有未被使用的最小
fd_array
数组下标,则使用该下标作为新的文件描述符。 -
例如,当 0、1、2 被占用时,文件描述符从 3 开始分配。
-
如果关闭了一个文件描述符(如 0 或 2),后续打开文件时会优先使用被关闭的最小下标。
这一规则确保了文件描述符的分配是尽可能紧凑和高效的。
五、总结
文件描述符是操作系统管理打开文件的关键机制。进程运行时,默认打开的 0、1、2 文件描述符分别对应标准输入、标准输出和标准错误流。通过 fd_array
数组,操作系统将文件描述符与具体的 struct file
结构体关联起来,从而实现对文件的高效操作。