操作系统——文件管理

最新推荐文章于 2024-02-27 17:50:44 发布

取个名字真难啊啊

最新推荐文章于 2024-02-27 17:50:44 发布

阅读量613

点赞数

分类专栏：操作系统文章标签：鸿蒙系统 windows

本文链接：https://blog.youkuaiyun.com/qq_44368660/article/details/123190098

版权

操作系统专栏收录该内容

5 篇文章

订阅专栏

操作系统——文件管理

初识文件管理
文件的逻辑结构
文件目录
文件保护
文件共享
- 基于索引结点的共享方式（硬链接）
- 基于符号链的共享方式（软链接）
文件的物理结构/文件分配方式
逻辑结构VS物理结构
文件存储空间管理（空闲磁盘块管理）

初识文件管理

文件：就是一组有意义的信息/数据的集合

计算机中存放了各种各样的文件

一个文件有哪些属性?
文件内部的数据应该怎样组织起来?
文件之间又应该又应该怎么组织起来?
从下往上看。OS应该提供哪些功能，才能方便用户、应用程序使用文件？
从上往下看，文件数据应该怎么被存放在外存（磁盘）上？

一个文件有哪些属性?
文件名:由创建文件的用户决定文件名，主要是为了方便用户找到文件，同一目录下不允许有重名文件。
标识符:一个系统内的各文件标识符唯一，对用户来说毫无可读性，因此标识符只是操作系统用于区分各个文件的一种内部名称。
类型：指明文件的类型
位置:文件存放的路径(让用户使用)、在外存中的地址(操作系统使用，对用户不可见)
大小:指明文件大小
创建时间：上次修改时间
文件所有者信息
保护信息:对文件进行保护的访问控制信息

文件内部的数据应该怎么组织起来：

无结构文件（如文本文件）
有结构文件（如数据库表）
在这里插入图片描述
有结构文件中，各个记录间应该如何组织的问题——应该顺序存放？还是用索引表来表示记录间的顺序？这是“文件的逻辑结构”重点要探讨的问题

文件之间应该怎么组织起来

在这里插入图片描述

操作系统应该向上层提供哪些功能

在这里插入图片描述

从上往下看，文件如何被存放在外存（磁盘）上

类似于内存分为一个个“内存块”，外存会分为一个个“块/磁盘块/物理块”

每个磁盘块的大小是相等的，每块一般包含2的整数幂个地址。同样类似的是，文件的逻辑地址也可以分为(逻辑块号，块内地址)，操作系统同样需要将逻辑地址转换为外存的物理地址(物理块号，块内地址)的形式。块内地址的位数取决于磁盘块的大小

操作系统以“块”为单位为文件分配存储空间，因此即使一个文件大小只有10B，但它依然需要占用1KB的磁盘块。外存中的数据读入内存时同样以块为单位

文件的逻辑结构

按文件是否有结构分类，可以分为无结构文件、有结构文件两种。
无结构文件:文件内部的数据就是一系列二进制流或字符流组成。又称“流式文件”。如:Windows操作系统中的.txt文件。
有结构文件:由一组相似的记录组成，又称“记录式文件”。每条记录又若干个数据项组成。如:数据库表文件。一般来说，每条记录有一个数据项可作为关键字(作为识别不同记录的ID)。根据各条记录的长度是否相等，又可以分为定长记录和可变长记录。

有结构文件的逻辑结构可以分为三类：顺序文件、索引文件、索引顺序文件

顺序文件

文件中的记录一个接一个地顺序排列(逻辑上)，记录可以是定长的或可变长的。各个记录在物理上可以顺序存储或链式存储。
在这里插入图片描述

结论:定长记录的顺序文件，若物理上采用顺序存储，则可实现随机存取;若能再保证记录的顺序结构，则可实现快速检索(即根据关键字快速找到对应记录)

索引文件

对于可变长记录文件，要找到第i个记录，必须先顺序第查找前i-1个记录，但是很多应用场景中又必须使用可变长记录。如何解决这个问题

在这里插入图片描述
索引表本身是定长记录的顺序文件。因此可以快速找到第i个记录对应的索引项。可将关键字作为索引号内容，若按关键字顺序排列，则还可以支持按照关键字折半查找。
每当要增加/删除一个记录时，需要对索引表进行修改。由于索引文件有很快的检索速度，因此主要用于对信息处理的及时性要求比较高的场合。
另外，可以用不同的数据项建立多个索引表。如:学生信息表中，可用关键字“学号”建立一张索引表。也可用“姓名”建立一-张索引表。这样就可以根据“姓名”快速地检索文件了。(Eg:SQL就支持根据某个数据项建立索引的功能)

索引顺序文件

索引文件的缺点:每个记录对应一个索引表项，因此索引表可能会很太。比如:文件的每个记录平均只占8B，而每个索引表项占32个字节，那么索引表都要比文件内容本身大4倍，这样对存储空间的利用率就太低了。
解决方案：索引顺序文件是索引文件和顺序文件思想的结合。索引顺序文件中，同样会为文件建立一张索引表，但不同的是:并不是每个记录对应一个索引表项，而是一组记录对应一个索引表项
在这里插入图片描述
为了进一步提高检索效率，可以为顺序文件建立多级索引表。例如，对于一个含10⁶个记录的文件，可先
为该文件建立一张低级索引表，每100个记录为一组，故低级索引表中共有10000个表项( 即10000个定长
记录)，再把这10000个定长记录分组，每组100个，为其建立顶级索引表，故顶级索引表中共有100个表
项。100——>100100——>100100*100，平均查找长度50+50+50=150

文件目录

文件控制块（FCB）

在这里插入图片描述
FCB的有序集合称为“文件目录”，一个FCB就是一一个文件目录项。
FCB中包含了文件的基本信息(文件名、物理地址、逻辑结构、物理结构等)，存取控制信息(是否可读/可写、禁止访问的用户名单等)，使用信息(如文件的建立时间、修改时间等)。

需要对目录进行哪些操作?
搜索:当用户要使用一个文件时，系统要根据文件名搜索目录，找到该文件对应的目录项
创建文件:创建一个新文件时，需要在其所属的目录中增加一个目录项
删除文件:当删除一个文件时，需要在目录中删除相应的目录项
显示目录:用户可以请求显示目录的内容，如显示该目录中的所有文件及相应属性
修改目录:i某些文件属性保存在目录中,因此这些属性变化时需要修改相应的目录项(如:文件重命名)

目录结构

单级目录结构：早期操作系统并不支持多级目录，整个系统中只建立一张目录表，每个文件占一个目录项。单级目录实现了“按名存取”，，但是不允许文件重名。在创建一一个文件时，需要先检查目录表中有没有重名文件，确定不重名后才能允许建立文件，并将新文件对应的目录项插入目录表中.显然，单级目录结构不适用于多用户操作系统。
两级目录结构：
多级目录结构（树形目录结构）

用户(或用户进程)要访问某个文件时要用文件路径名标识文件，文件路径名是个字符串。各级目录之间用“/”隔开。从根目录出发的路径称为绝对路径。例如:自拍.jpg的绝对路径是“ /照片/2015-08/自拍jpg’
每次都从根目录开始查找，是很低效的。因此可以设置一个“当前目录”。例如，此时已经打开了“照片”的目录文件，也就是说，这张目录表已调入内存，那么可以把它设置为“当前目录”。当用户想要访问某个文件时，可以使用从当前目录出发的“相对路径”。
在Linux中，“.” 表示当前目录，因此如果“照片”是当前目录，则”自拍.jpg”的相对路径为:“./2015-08/自拍jpg”。
树形目录结构可以很方便地对文件进行分类，层次结构清晰，也能够更有效地进行文件的管理和保护。但
是，树形结构不便于实现文件的共享。为此，提出了“无环图目录结构”。
无环图目录结构

索引结点（对文件控制块的优化）

在这里插入图片描述
假设一个FCB是64B，磁盘块的大小为1KB，则每个盘块中只能存放16个FCB。若一个文件目录中共有640个目录项，则共需要占用640/16 = 40个盘块。因此按照某文件名检索该目录，平均需要查询320个目录项，平均需要启动磁盘20次(每次磁盘I/O读入一块)。
若使用索引结点机制，文件名占14B，索引结点指针站2B，则每个盘块可存放64个目录项，那么按文件名检索目录平均只需要读入320/64=5个磁盘块。显然，这将大大提升文件检索速度。

文件保护

口令保护

为文件设置一个“口令”(如:abc112233 )，用户请求访问该文件时必须提供“口令”。
口令一般存放在文件对应的FCB或索引结点中。用户访问文件前需要先输入“口令”，操作系统会将用户提供的口令与FCB中存储的口令进行对比，如果正确，则允许该用户访问文件

优点:保存口令的空间开销不多，验证口令的时间开销也很小。
缺点:正确的“口令”存放在系统内部，不够安全。

加密保护

使用某个“密码”对文件进行加密，在访问文件时需要提供正确的“密码”才能对文件进行正确的解密。
在这里插入图片描述

访问控制

在每个文件的FCB ( 或索引结点)中增加一个访问控制列表(Access-Control List, ACL),，该表中记录了各个用户可以对该文件执行哪些操作。
在这里插入图片描述

文件共享

注意:多个用户共享同一个文件，意味着系统中只有“一份”文件数据。并且只要某个用户修改了该文件的数据，其他用户也可以看到文件数据的变化。
如果是多个用户都“复制”了同一个文件，那么系统中会有“好几份”文件数据。其中一个用户修改了自己的那份文件数据，对其他用户的文件数据并没有影响。

基于索引结点的共享方式（硬链接）

知识回顾:索引结点，是一种文件目录瘦身策略。由于检索文件时只需用到文件名，因此可以将除了文件名之外的其他信息放到索引结点中。这样目录项就只需要包含文件名、索引结点指针。
在这里插入图片描述
索引结点中设置一个链接计数变量count,用于表示链接到本索引结点上的用户目录项数。
若count=2，说明此时有两个用户目录项链接到该索引结点上，或者说是有两个用户在共享此文件。

基于符号链的共享方式（软链接）

在这里插入图片描述
当User3访问“ccC”时，操作系统判断文件“CCC”属于Link类型文件，于是会根据其中记录的路径层层查找目录，最终找到User1的目录表中的‘“aaa”表项，于是就找到了文件1的索引结点。

文件的物理结构/文件分配方式

文件数据应该怎样存放在外存中
类似于内存分页，磁盘中的存储单元也会被分为一个个“块/磁盘块/物理块”。很多操作系统中，磁盘块的大小与内存块、页面的大小相同。
内存与磁盘之间的数据交换(即读/写操作、磁盘I/O) 都是以块”为单位进行的。即每次读入块，或每次写出一块

在内存管理中，进程的逻辑地址空间被分为一个一个页面
同样的，在外存管理中，为了方便对文件数据的管理，文件的逻辑地址空间也被分为了一个一个的文件“块”
于是文件的逻辑地址也可以表示为(逻辑块号，块内地址)的形式。

操作系统为文件分配存储空间都是以块为单位的。用户通过逻辑地址来操作自己的文件，操作系统要负责实现从逻辑地址到物理地址的映射

连续分配

在这里插入图片描述
用户给出要访问的逻辑块号，操作系统找到该文件对应的目录项(FCB)
物理块号=起始块号+逻辑块号
当然，还需要检查用户提供的逻辑块号是否合法(逻辑块号≥长度就不合法)
可以直接算出逻辑块号对应的物理块号，因此连续分配支持顺序访问和直接访问(即随机访问)

连续分配方式要求每个文件在磁盘上占有一组连续的块。
优点:支持顺序访问和直接访问(即随机访问);连续分配的文件在顺序访问时速度最快
缺点:不方便文件拓展;存储空间利用率低，会产生磁盘碎片

链接分配

链接分配采取离散分配的方式，可以为文件分配离散的磁盘块。分为隐式链接和显式链接两种。

隐式链接

在这里插入图片描述
用户给出要访问的逻辑块号i,操作系统找到该文件对应的目录项(FCB)

从目录项中找到起始块号(即0号块)，将0号逻辑块读入内存，由此知道1号逻辑块存放的物理块号，于是读入1号逻辑块，再找到2号逻辑块的存放位置…以此类推。因此，读入i号逻辑块，总共需要i+1次磁盘I/O。

结论:采用链式分配( 隐式链接)方式的文件，只支持顺序访问，不支持随机访问，查找效率低。另外，指向下一个盘块的指针也需要耗费少量的存储空间。

优点:很方便文件拓展，不会有碎片问题，外存利用率高。
缺点:只支持顺序访问，不支持随机访问，查找效率低，指向下一个盘块的指针也需要耗费少量的存储空间。

显式链接

把用于链接文件各物理块的指针显式地存放在一张表中。即文件分配表(FAT, File Allocation Table )
在这里插入图片描述

在这里插入图片描述
注意:一个磁盘仅设置一张FAT。开机时，将FAT读入内存，并常驻内存。FAT 的各个表项在物理上连续存储，且每一个表项长度相同，因此“物理块号”字段可以是隐含的。

从目录项中找到起始块号，若i>0，则查询内存中的文件分配表FAT,往后找到i号逻辑块对应的物理块号。逻辑块号转换成物理块号的过程不需要读磁盘操作。

结论:采用链式分配(显式链接)方式的文件，支持顺序访问，也支持随机访问( 想访问i号逻辑块时，并不需要依次访问之前的0~i-1号逻辑块)，由于块号转换的过程不需要访问磁盘，因此相比于隐式链接来说，访问速度快很多。

索引分配

索引分配允许文件离散地分配在各个磁盘块中，系统会为每个文件建立一张索引表，索引表中记录了文件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表一一建立逻辑页面到物理页之间的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。
在这里插入图片描述
注:在显式链接的链式分配方式中，文件分配表FAT是一个磁盘对应一张。而索引分配方式中，索引表是一个文件对应一张。

可以用固定的长度表示物理块号(如:假设磁盘总容量为1TB=2⁴⁰B，磁盘块大小为1KB，则共有2³⁰个磁盘块，则可用4B表示磁盘块号)，因此，索引表中的“逻辑块号”可以是隐含的。

若每个磁盘块1KB，个索引表项4B，则一个磁盘块只能存放256个(1kB/4B)索引项。
如果一个文件的大小超过了256块，那么一个磁盘块是装不下文件的整张索引表的，如何解决这个问题?

链接方案

如果索引表太大，一个索引块装不下，那么可以将多个索引块链接起来存放。（指针）
若想要访问文件的最后一个逻辑块，就必须找到最后一个索引块，而各个索引块之间是用指针链接起来的，因此必须先顺序地读入前面所有索引块。

多层索引

建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引块。还可根据文件大小的要求再建立第三层、第四层索引块。
在这里插入图片描述
若某文件采用两层索引，则该文件的最大长度可以到256* 256*1KB = 65536 KB = 64MB
可根据逻辑块号算出应该查找索引表中的哪个表项。
如:要访问1026号逻辑块，则1026/256= 4，1026%256= 2因此可以先将一级索引表调入内存，查询4号表项，将其对应的二级索引表调入内存，再查询二级索引表的2号表项即可知道1026号逻辑块存放的磁盘块号了。
采用K层索引结构，访问目标数据块，需要K+1次磁盘I/O。

混合索引

多种索引分配方式的结合。例如，一个文件的顶级索引表中，既包含直接地址索引(直接指向数据块)，又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表)。
在这里插入图片描述

逻辑结构VS物理结构

在这里插入图片描述

文件存储空间管理（空闲磁盘块管理）

在这里插入图片描述

空闲表法

在这里插入图片描述
适用于连续分配方式

如何分配磁盘块:与内存管理中的动态分区分配很类似，为一个文件分配连续的存储空间。同样可采用首次适应、最佳适应、最坏适应等算法来决定要为文件分配哪个区间。

如何回收磁盘块:与内存管理中的动态分区分配很类似，当回收某个存储区时需要有四种情况
①回收区的前后都没有相邻空闲区;新增表项
②回收区的前后都是空闲区:合并表项
③回收区前面是空闲区;
④回收区后面是空闲区。
总之，回收时需要注意表项的合并问题。

空闲链表法

在这里插入图片描述
空闲盘块链：
如何分配:若某文件申请K个盘块，则从链头开始依次摘下K个盘块分配，并修改空闲链的链头指针。
如何回收:回收的盘块依次挂到链尾，并修改空闲链的链尾指针。

空闲盘区链：
如何分配:若某文件申请K个盘块，则可以采用首次适应、最佳适应等算法，从链头开始检索，按照算法规则找到一个大小符合要求的空闲盘区，分配给文件。若没有合适的连续空闲块，也可以将不同盘区的盘块同时分配给一个文件，注意分配后可能要修改相应的链指针、盘区大小等数据。
如何回收:若回收区和某个空闲盘区相邻，则需要将回收区合并到空闲盘区中。若回收区没有和任何空闲区相邻，将回收区作为单独的一个空闲盘区挂到链尾。