探索文件空洞

ohOnly~

已于 2024-06-22 23:57:13 修改

阅读量1.1k

点赞数 21

分类专栏：技术探索与分享文章标签： c++ linux

于 2024-04-24 20:57:31 首次发布

本文链接：https://blog.youkuaiyun.com/2301_76846772/article/details/138169392

版权

技术探索与分享专栏收录该内容

6 篇文章

订阅专栏

1.什么是文件空洞，以及空洞的产生方法

文件空洞是什么？他其实就是操作系统中的文件系统对文件的一种逻辑描述形式。以下是产生文件空洞的方式。

1.通过文件偏移量生成：在UNIX/Linux文件操作中，当我们使用lseek函数设置文件偏移量的时候，当文件偏移量大于文件本身长度的时候。

2.多线程下载或文件预分配：例如，迅雷在下载文件时，如果文件尚未完全下载，但已经占据了全部文件大小的空间，这时就形成了文件空洞。这样做的好处是，在多线程下载时，不同的线程可以写入文件的不同部分，而不会互相干扰，从而提高了下载效率。同样，文件预分配也会生成文件空洞，即预先分配足够的磁盘空间来存储文件，即使文件的实际内容还未完全写入。

2.手动创建一个空洞文件

接下来我们来复现一下，第一种操作产生的一个文件空洞。下面是在linux下的代码操作。

    #include<fcntl.h>
#include<iostream>
#include<unistd.h>
using namespace std;

int main()
{

   char buf_1[]="1234567890";

  int fd_1;
  int fd_2;
  //##############################创建一个有空洞文件#################################

  if((fd_1=creat("file_hole",666))<0)
  {
          std::cout<<"creat file_hole erron";
  return 0;
  }
  if(write(fd_1,buf_1,10)!=10)
  {
          std::cout<<"write file_hole erron";
    return 0;
  }
  //文件偏移 20000个字节
  if(lseek(fd_1,20000,SEEK_SET)==-1)
  {
          std:: cout<<"lseek file_hole erron";
   return 0;
  }


 if(write(fd_1,buf_1,10)!=10)
  {
          std::cout<<"write file_hole erron";
    return 0;
  }


  //*****************************************************************************
  //################################创建没有空洞的文件##############################
   if((fd_2=creat("file_Nohole",666))<0)
  {
          std::cout<<"creat file_Nohole erron";
  return 0;
  }
   if(write(fd_2,buf_1,10)!=10)
  {
          std::cout<<"write file_Nohole erron";
    return 0;
  }
  //写20000个字节，循环20000/10 每次写10字节。 我们忽略单词IO操作所消耗的时间效率
  for(int i=0;i<20000/10;i++)
  {
    if(write(fd_2,buf_1,10)!=10)
    {
      std::cout<<"for wirte filt_Nohole erron";
      return 0;
    }

  }
  //****************************************************************************
return 0;
}

上述代码中，我们创建了两个文件，一个是“file_Nohole”一个是“file_hole”。这两个文件，一个用字符填满，一个中间有一个大概20000字节左右的空洞。我们在linux下面使用g++编译一下这段代码。

在这里插入图片描述

然后运行这个可执行程序后，我们可以看到两个文件已经生成了。接下来我们看一下，这两个文件的详细内容。
在这里插入图片描述

我们可以看到，这两个文件的长度是相同的都是20010.但奇怪的是，他们占用的磁盘块并不相同。有空洞的文件"file_hole",占用的磁盘块是8，而没有空洞的文件“file_Nohole”占用的磁盘块是20.这是为啥呢？其实原因是，大多操作系统在处理空洞文件的时，并不要求占用存储空间。当我们打开文件，读取的时候，文件的空洞部分读为0.

3.空洞的底层原理

这就又引出了一个新的问题，既然文件的空洞部分并不占用存储空间，那操作系统对于文件的空洞部分是如何记录的呢，当我们读到空洞的时候，它又是如何知道我们读的这块区域是个空洞呢？其实，这些文件的空洞信息，是记录在文件系统的元数据中的。文件空洞的记录和维护实际上是在操作系统和文件系统的协同作用下完成的。在UNIX或类UNIX系统（如Linux）中，文件空洞的处理方式尤为典型。首先，当文件被创建或修改时，文件系统会跟踪文件的当前长度和已写入的数据。如果文件被扩展（即，文件的位移量大于其当前长度），文件系统并不会立即为扩展的部分分配物理存储空间。相反，它会在文件的元数据中记录这一扩展，但实际的磁盘空间不会被占用，这样就形成了一个空洞。其次，当读取文件时，操作系统会检查文件的元数据，以确定哪些部分是实际的数据，哪些部分是空洞。对于空洞部分，操作系统会返回特定的值（例如0），因为这些部分没有实际的内容。同样地，当写入数据时，如果写入操作导致文件被扩展并创建了新的空洞，文件系统会更新元数据以反映这一变化。此外，不同的文件系统可能采用不同的策略来处理空洞。例如，某些文件系统可能采用特定的数据结构来跟踪空洞的位置和大小，以便更有效地管理磁盘空间。而另一些文件系统可能使用更简洁的方法来标记空洞，只在需要时（如写入新数据时）才进行更详细的处理。最后，需要注意的是，虽然空洞在逻辑上不占用存储空间，但它们仍然会影响文件的大小和某些操作的性能。因此，在设计文件系统和应用程序时，需要仔细考虑如何处理文件空洞，以优化存储空间的利用和性能。也就是说，文件系统会记录文件的一些信息，包括空洞部分和有效数据区域。

4.文件空洞的作用

我名搞明白了文件的空洞产生，和文件系统对空洞的维护，那么空洞有什么实际作用吗？有！主要有以下几个方面。

提高压缩效率：许多压缩程序使用空洞机制来标记文件中的零字节，从而显著减少文件大小并提高压缩效率。这是因为压缩算法通常会产生大量的零字节，而空洞机制可以有效地将这些零字节标记为“空洞”，避免不必要的存储占用。
优化数据库性能：数据库经常需要处理大量的数据，空洞机制在这里可以发挥重要作用。它可以使数据库更快地读取和写入数据，降低磁盘使用率，并提高性能。此外，当某个数据项被删除时，空洞机制可以释放该数据项占用的空间，避免碎片化，从而保持数据库的高效运行。
处理大型文件：对于超大的文件，如视频和音频文件，空洞机制可以大幅度提高文件的效率。通过避免大型文件的碎片化，空洞技术可以确保文件在读取和写入时保持高效和稳定。
共享内存：当两个文件需要共享内存时，空洞文件发挥了关键作用。由于不知道需要共享内存的大小，因此需要在文件创建后设置文件的大小。这时，可以使用空洞文件机制来设置文件大小，通过lseek和write操作来创建一个指定大小的空洞文件。
多线程下载：以迅雷下载文件为例，当文件还未完全下载时，就已经占据了全部文件大小的空间。这是通过空洞文件实现的。没有空洞文件，多线程下载时文件只能从一个地方写入，无法发挥多线程的优势。而有了空洞文件，可以从不同的地址写入，从而实现多线程下载的并行化。
全下载时，就已经占据了全部文件大小的空间。这是通过空洞文件实现的。没有空洞文件，多线程下载时文件只能从一个地方写入，无法发挥多线程的优势。而有了空洞文件，可以从不同的地址写入，从而实现多线程下载的并行化。