25、数字取证中数据去重的分析与影响

最新推荐文章于 2025-10-07 11:54:48 发布

seed

最新推荐文章于 2025-10-07 11:54:48 发布

阅读量53

点赞数

CC 4.0 BY-SA版权

分类专栏：网络空间安全前沿探析文章标签：数字取证数据去重 TSK工具

本文链接：https://blog.youkuaiyun.com/seed/article/details/151770556

网络空间安全前沿探析专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数字取证中数据去重的分析与影响

在当今数字化时代，数据存储和管理变得至关重要。数据去重技术作为一种有效减少存储容量需求的方法，正逐渐被广泛应用。然而，这种技术对数字取证调查工具产生了一定的影响。本文将深入探讨数据去重技术及其对开源数字取证调查工具的影响，并提出相应的解决方案。

数据去重概述

数据去重技术可以分为两大类：在线去重（inline deduplication）和后处理去重（post-processing deduplication），并可进一步细分为文件级、块级和字节级三个类别：
- 在线去重 ：在文件写入磁盘之前进行去重。数据先临时写入缓冲区，文件被分割成指定大小的块，并为每个块计算哈希值。如果系统中不存在具有相同哈希值的块，则将该块写入磁盘，并更新哈希数据库以包含新的哈希值。同时，文件也会更新以包含该哈希值。如果块的哈希值已经存在于磁盘上，则将哈希值添加到文件的哈希序列中，并更新映射以包含连接文件和块在内存中物理位置的指针，然后将块从缓冲区中释放。
- 后处理去重 ：数据像在常规文件系统中一样立即写入磁盘。在设定的时间段后，原始文件被处理，分割成块，计算哈希值，并与哈希数据库进行比对。然后，从磁盘中删除文件的冗余部分。
- 文件级去重 ：通过分析文件或“结构化数据”（如电子邮件、数据库等）并删除重复项。特别适用于电子邮件存储库、数据库和虚拟机映像备份。
- 块级去重 ：允许分析文件的块并删除重复项。块可以看作是更大数据的分区或文件的部分。
- 字节级去重 ：是一种“内容感知”的块级去重形式，意味着对数据流进行了一些逆向工程，以检索与使用的信息（如文件名、文件类型等）相对应的字节。

在线去重和后处理去重方法各有优缺点。在线去重需要较少的磁盘空间，但可能会在去重处理过程中造成瓶颈；而后处理去重在数据处理期间和重复数据未释放之前需要更多的磁盘空间，但由于处理过程不会产生瓶颈。

总体而言，数据去重有助于减少存储使用，但会带来额外的开销和性能下降的可能性。此外，如果一个数据块损坏，所有指向该块的文件都将丢失原始数据。

不同的数据去重系统

目前有各种数据去重系统，这里主要关注OpenDedup和Windows Server 2012及2016的去重系统。
- OpenDedup ：是在线数据去重系统的一个示例。它与Ubuntu 14.01+和其他各种操作系统兼容。常规文件系统中的所有必要文件使用FUSE（用户空间文件系统）进行分配，去重文件系统SDFS在Linux上看起来像一个挂载的驱动器，文件通过挂载点访问。OpenDedup的块大小是固定的，使用的哈希函数是Murmurhash3，长度为128位，种子为0x192A。在指针文件中，前几个字节包含有关创建者的信息，最后几个字节包含文件的版本。文件内部包含原始文件的大小，以及指向包含构成文件的块序列的结构（文件夹）中元素的唯一标识符。每个文件夹都有一个唯一的标识符命名，并拥有自己的映射文件，该映射文件作为哈希数据库，包含该文件夹中存储的所有块的哈希值。文件夹的命名格式为“nnn - nnn”（例如，123 - 125），其中文件夹中的块的哈希值适合该范围。映射文件遵循键、长度（块大小 + 起始标记的长度）和值（块）的结构。在OpenDedup中，文件夹充当块存储。
- Windows Server 2012和2016 ：其数据去重系统是后处理去重的一个示例。文件存储在常规文件系统中，在设定的时间段后，使用SHA256进行哈希处理对文件进行去重，并删除原始文件。并非所有文件都会被去重，小于32 KB的文件、系统状态文件、加密和/或压缩文件以及具有某些扩展名的文件会按常规方式保存，从不进行去重。在去重时，根据系统配置，块在存储时会被压缩，但这不适用于已经压缩的文件块。所有去重数据都存储在系统卷信息文件夹中，每个块存储有3个文件夹/容器：流容器、数据容器和热点容器。Windows文件系统或NTFS（新技术文件系统）包含一个主文件表（$MFT），其中与去重文件相关的每个条目都保存有关块存储的信息，作为“重解析点”（$REPARSE POINT - 0xC0）。重解析点以NTFS属性类型0xC0开头，文件的长度写在字节偏移量0x28处，块存储标识符在字节偏移量0x38处，流头在字节偏移量0x78处。流头用于在流文件中识别正确的哈希条目。块存储文件夹包含一个数据文件夹和一个流文件夹。数据文件夹是存储块的地方，包含一个.ccc文件，即块容器。流文件夹包含去重文件的哈希序列，并具有一个.ccc文件，分为3个部分：cthr - 文件头、rrtl - 重定向文件夹和ckhr - 流映射元素。chkr部分包含相对于文件的完整哈希序列（流映射）。

TSK工具及其受数据去重的影响

在计算机取证领域，有许多可用的工具，如TSK（The Sleuth Kit）、The Forensic Toolkit、Toolsley等。TSK是一个免费的开源工具，被世界各地的个人和公司广泛使用，如Cyber Triage。它为用户提供了多种工具，包括删除文件检索、恶意文件扫描、关键字文件搜索以及文件内容查看等功能。它支持广泛的数据源，如磁盘映像、VM文件、本地磁盘、本地文件/文件夹和未分配空间映像。

由于TSK的广泛使用、开源性质以及对多种数据源类型的支持，我们将分析磁盘映像中的数据去重对TSK工具的影响。TSK提供的手动分析工具可以分为六个部分：
- 图像文件工具 ：包含用于图像文件格式的工具，如img stat用于显示图像格式的详细信息，img cat用于显示图像文件的原始内容。
- 卷系统工具 ：以磁盘（或其他介质）映像为输入，分析其分区结构。例如mmls用于显示磁盘的布局，包括已分配和未分配的空间；mmstat用于显示卷系统的详细信息；mmcat用于使用标准输出显示卷的内容。
- 文件系统层工具 ：处理一般的文件系统数据，如布局、分配结构和引导块。例如fsstat用于显示文件系统的详细信息和统计数据，包括布局、大小和标签。
- 文件名层工具 ：处理通常位于父目录中的文件名结构。例如ﬃnd用于查找指向给定元数据结构的已分配和未分配的文件名，ﬂs用于列出目录中所有已分配和未分配的文件名。
- 元数据层工具 ：处理存储文件详细信息的元数据结构。例如icat用于提取文件的数据单元，通过元数据地址而不是文件名指定；iﬁnd用于根据给定的文件名或数据单元查找元数据结构。
- 数据单元层工具 ：处理存储文件内容的数据单元（簇或块）。例如blkcat用于提取给定数据单元的内容，blkls用于列出数据单元的详细信息，blkstat用于显示数据单元的统计信息，blkcalc用于计算未分配空间映像中数据的位置。

为了研究数据去重对TSK工具的影响，我们进行了以下测试：使用VMWare初始化了一个Windows Server 2012 VM，并在其中添加了一个启用数据去重的20 GB分区。将去重卷的NoCompress设置为true，并将去重过程安排在每晚11:00进行。下载了5个文件并放置在启用去重的分区上，包括1342 - 0 (.txt)、sample - mp4 - file (.mp4)、get started with smallpdf (.pdf)、Symphony No. 6 (1st movement) (.mp3)和Sample 1280x720 surﬁng with audio (.mkv)。在预定的去重运行后，使用qemu - img将VM映像从.vmdk转换为.img文件，然后使用Autopsy进行处理。

由于TSK工具的性质，我们预测所有需要确定分配给去重文件的数据单元（簇）地址的工具都会失败，因为它们会跟随错误的数据地址。为了验证这一假设，我们在启用数据去重的映像上测试了TSK工具，结果如下表所示：
| 工具层 | 工具名称 | 是否不受数据去重影响？ |
| — | — | — |
| 文件系统层工具 | fsstat | 是 |
| 文件名层工具 | ﬃnd | 是 |
| 文件名层工具 | ﬂs | 是 |
| 文件名层工具 | fcat | 否 |
| 元数据层工具 | icat | 否 |
| 元数据层工具 | iﬁnd | 是 |
| 元数据层工具 | ils | 是 |
| 元数据层工具 | istat | 否 |
| 数据单元层工具 | blkcat | 是 |
| 数据单元层工具 | blkls | 是 |
| 数据单元层工具 | blkstat | 是 |
| 数据单元层工具 | blkcatc | 是 |
| 卷系统工具 | mmls | 是 |
| 卷系统工具 | mmstat | 是 |
| 卷系统工具 | mmcat | 是 |
| 图像文件工具 | img stat | 是 |
| 图像文件工具 | img cat | 是 |

例如，istat使用文件的inode编号并显示其详细信息，包括文件占用的数据单元地址，但在去重文件上会失败，因为可以观察到常规文件的$DATA属性中的所有地址都为零。

综上所述，数据去重技术在提高数据存储效率的同时，给数字取证工作带来了新的挑战。TSK作为常用的数字取证工具，部分功能在面对去重数据时会受到影响。后续我们将进一步探讨如何增强TSK工具以适应数据去重环境，以及数据去重技术在取证方面的积极影响。

增强TSK工具以适应数据去重环境

为了让TSK工具在遇到启用数据去重的卷时仍能正常工作，我们需要开发相应的解决方案。具体来说，我们将从以下两个方面进行改进：

设计和开发数据去重恢复算法

我们将设计并开发一个数据去重恢复算法，以扩展TSK这个广泛使用的开源文件系统取证工具，使其能够支持处理去重文件。该算法的主要步骤如下：
1. 解析哈希序列 ：从去重文件中提取哈希序列，这些序列映射到块存储中的相应块。
2. 查找块存储 ：根据哈希序列，在块存储中查找对应的块。
3. 恢复文件内容 ：将找到的块按照哈希序列的顺序组合起来，恢复文件的原始内容。

通过这个算法，TSK工具可以将充满哈希值的去重文件重新构建为具有正确内存内容的文件，从而解决了数据去重对TSK工具的影响。

探索数据去重在取证方面的积极影响

数据去重除了带来挑战外，也有一些积极的影响。由于数据去重的特性，多个文件可以引用同一个块，我们探索了去重是否可以允许恢复多个文件的块，而不仅仅是目标原始文件。

为了验证这一想法，我们进行了大量的实验。实验结果表明，在某些情况下，数据去重可以让法医分析人员恢复比原本认为可能更多的证据。例如，当一个关键文件的部分块被多个其他文件引用时，即使关键文件本身可能已经损坏或删除，我们仍然可以通过其他引用该块的文件来恢复这些关键块的内容。

研究的后续安排

为了进一步深入研究数据去重对数字取证的影响，并找到更好的解决方案，我们的研究将按照以下步骤进行：

深入了解数据去重 ：在接下来的研究中，我们将更加深入地探讨数据去重的原理和机制，详细分析不同去重技术的特点和应用场景。
分析TSK工具和功能 ：对TSK工具的各个功能进行详细的总结和分析，明确每个工具在数据去重环境下的表现和问题。同时，详细解释测试设置，确保测试结果的准确性和可靠性。
提出解决方案 ：针对数据去重对TSK工具的影响，提出具体的解决方案。我们的目标是使我们的取证软件解决方案与广泛使用的数据去重工具兼容，如果不能兼容所有的数据去重工具，也要尽量扩大兼容性范围。
探索积极影响 ：继续探索数据去重在取证方面的积极影响，通过更多的实验和案例分析，总结出在哪些情况下数据去重可以帮助我们更好地恢复证据。
研究相关工作 ：对相关领域的研究工作进行综述和分析，了解其他研究者在数据去重和数字取证方面的成果和经验，为我们的研究提供参考和借鉴。
总结和展望 ：最后，对整个研究进行总结，得出结论，并对未来的研究工作进行展望，提出可能的研究方向和改进措施。

总结与展望

数据去重技术在提高数据存储效率方面具有显著的优势，但也给数字取证工作带来了新的挑战。TSK作为常用的数字取证工具，部分功能在面对去重数据时会受到影响。通过设计和开发数据去重恢复算法，我们可以扩展TSK工具的功能，使其能够支持处理去重文件。同时，我们也发现数据去重在某些情况下可以为取证工作带来积极的影响，帮助我们恢复更多的证据。

未来的研究工作将继续深入探索数据去重与数字取证之间的关系，不断改进和完善取证工具和方法，以应对不断变化的数据存储和处理技术。同时，我们也需要加强对数据去重技术的监管和规范，确保在提高存储效率的同时，不会对数字取证等重要工作造成过大的阻碍。

以下是整个研究过程的mermaid流程图：

graph LR
    A[开始研究] --> B[深入了解数据去重]
    B --> C[分析TSK工具和功能]
    C --> D[提出解决方案]
    D --> E[探索积极影响]
    E --> F[研究相关工作]
    F --> G[总结和展望]
    G --> H[结束研究]

通过本文的研究，我们希望能够为数字取证领域的研究人员和从业者提供有价值的参考，帮助他们更好地应对数据去重带来的挑战，充分利用数据去重的积极影响，提高数字取证的效率和准确性。