22、探索 Merkle DAG：一种创新的文件系统数据结构

最新推荐文章于 2025-10-22 11:35:11 发布

open4

最新推荐文章于 2025-10-22 11:35:11 发布

阅读量56

点赞数

CC 4.0 BY-SA版权

分类专栏： Python开发者实战区块链：从入门到精通文章标签： Merkle DAG Merkle树有向无环图

本文链接：https://blog.youkuaiyun.com/open4/article/details/149856030

Python开发者实战区块链：从入门到精通专栏收录该内容

29 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索 Merkle DAG：一种创新的文件系统数据结构

在当今数字化时代，高效且安全的数据管理至关重要。Merkle DAG（Merkle Directed Acyclic Graph）作为一种强大的数据结构，在众多领域，如版本控制系统和分布式文件系统中发挥着关键作用。本文将深入探讨 Merkle DAG 的原理、优势以及实际应用。

1. Merkle 树：数据完整性的守护者

Merkle 树是 Merkle DAG 的重要组成部分，它是一种用于快速验证数据完整性的数据结构。为了更好地理解 Merkle 树，我们来看一个具体的例子。

假设我们有八个数据块，这里我们用动物的名字来表示这些数据，如 “cat”、“dog”、“ant” 等。在比特币中，这些数据块通常是交易记录。

首先，我们对每个数据块进行哈希处理，使用 SHA256 哈希函数。为了方便展示，我们在图中截断了完整的哈希结果。我们将数据从左到右排序，“cat” 的哈希值记为 Data 1，“dog” 的哈希值记为 Data 2，以此类推。

接下来，我们将相邻的两个哈希值组合并再次哈希。例如，将 Data 1 和 Data 2 组合并哈希得到 Hash 1，同样地，对 Data 3 和 Data 4、Data 5 和 Data 6、Data 7 和 Data 8 进行相同的操作。

然后，我们将 Hash 1 和 Hash 2 组合并哈希得到 Hash 5，对 Hash 3 和 Hash 4 进行相同操作得到 Hash 6。

最后，将 Hash 5 和 Hash 6 组合并哈希，得到的结果就是根哈希（Root Hash）。这个根哈希可以保证所有数据块（从 Data 1 到 Data 8）的完整性。如果任何一个数据块发生改变，根哈希都会不同。

下面是 Merkle 树构建过程的 mermaid 流程图：

graph TD;
    A1[Data 1: cat] --> B1[Hash 1];
    A2[Data 2: dog] --> B1[Hash 1];
    A3[Data 3: ant] --> B2[Hash 2];
    A4[Data 4: ...] --> B2[Hash 2];
    A5[Data 5: ...] --> B3[Hash 3];
    A6[Data 6: ...] --> B3[Hash 3];
    A7[Data 7: ...] --> B4[Hash 4];
    A8[Data 8: ...] --> B4[Hash 4];
    B1 --> C1[Hash 5];
    B2 --> C1[Hash 5];
    B3 --> C2[Hash 6];
    B4 --> C2[Hash 6];
    C1 --> D[Root Hash];
    C2 --> D[Root Hash];

Merkle 树相比直接将所有数据连接并哈希（哈希列表）有明显的优势。在验证部分数据的完整性时，使用 Merkle 树更加容易和经济。例如，要验证 Data 5 的完整性，我们只需要下载 Data 5、Data 6、Hash 4、Hash 5 和根哈希，而不需要下载所有的数据。

如果节点数量为奇数，一般的规则（如比特币所采用的）是复制最后一个节点。例如，如果有七个节点，Data 8 就是 Data 7 的副本。当然，也可以采用其他规则，比如将单个数据块（如 Data 7）直接提升到上层。

在比特币的简化支付验证（Simplified Payment Verification）中，Merkle 树发挥了重要作用。使用移动应用时，下载完整节点很困难，用户可以只下载节点的重要部分来进行比特币交易，Merkle 树使得这个过程成为可能。

2. 有向无环图（DAG）

有向无环图（DAG）是一种图结构，其中每个顶点（或节点）可以有指向其他顶点的边。边的方向只要保持一致即可，但这些边不能形成环。

例如，在下面的图中，顶点 A、C 和 D 形成了一个环，这不符合 DAG 的规则。

graph LR;
    A --> C;
    C --> D;
    D --> A;

3. Merkle DAG：Merkle 树与 DAG 的结合

将 Merkle 树和 DAG 结合起来，就得到了 Merkle DAG。这是 Git 和 IPFS（InterPlanetary File System）所使用的数据结构。

与 Merkle 树不同，Merkle DAG 中任何节点都可以持有数据，而不仅仅是叶子节点。并且，Merkle 树必须是平衡的，而 Merkle DAG 没有这样的限制。

4. 内容寻址：Merkle DAG 的基础

在链表中，我们使用指针将节点（或块）连接起来。指针是一种指向内存的数据类型。例如，有两个节点 A 和 B，节点 A 是头节点，节点 B 是尾节点。节点的结构有两个重要组成部分：数据部分用于存储数据（在 Git 中，这个数据可以是文件的内容），另一个部分是指向另一个节点的链接，在链表中这是指向节点地址的指针。

而在内容寻址中，除了指针，我们还会添加目标节点的哈希值。这与区块链中的情况类似。Merkle DAG 不是像链表那样线性排列的，它是一个可以有分支的树结构。

例如，有三个节点：节点 A1 和 A2 都指向节点 B。我们将指针放在节点 B 上，节点 B 对节点 A1 和 A2 进行哈希处理，然后将两个哈希值连接起来再进行哈希。这样，节点 B 可以保证节点 A1 和 A2 内容的完整性。如果有人更改了节点 A1 或节点 A2 的内容，节点 B 保存的哈希值将无效。

IPFS 在获取文档时与 HTTP 不同。HTTP 使用链接，类似于指针。例如，链接 https://example.com/cute_panda.png 是通过位置来获取名为 cute_panda.png 的文档，只有一个提供者（example.com）可以提供这个文档。而 IPFS 使用哈希链接，如 ipfs://QmYeAiiK1UfB8MGLRefok1N7vBTyX8hGPuMXZ4Xq1DPyt7 。当你访问这个哈希链接时，IPFS 软件会找到哈希值与该链接相同的文档。由于哈希是单向函数，IPFS 需要其他信息来定位文档，它会向附近拥有该哈希值文档的节点广播请求。如果附近的节点没有这些文件，它们会将请求转发给它们附近的节点。

内容寻址的优势在于，可能有多个提供者可以提供同一个文档。我们可以选择最近的节点来下载文档，提高下载效率。同时，这也使得审查变得更加困难。例如，在 HTTP 中，一个参与者可以禁止服务器 https://example.com ，但在 IPFS 中，任何人都可以启动一个新节点来提供文档。

为了说明内容寻址的工作原理，我们可以创建一个简单的 Python 脚本。

首先，创建一个名为 ipfs_tutorial 的目录，并在其中创建四个示例文件：
- hello.txt ，内容为 I am a good boy.\n
- hello2.txt ，内容为 I am a good girl.\n
- hello3.txt ，内容为 I am a good horse.\n
- hello4.txt ，内容为 I am a good girl.\n

注意， hello2.txt 和 hello4.txt 的内容相同。

然后，创建一个名为 create_hash_from_content.py 的 Python 脚本：

from os import listdir
from hashlib import sha256

files = [f for f in listdir('.') if 'hello' in f]
hashes = {}

for file in files:
    with open(file) as f:
        content = f.read().encode('utf-8')
        hash_of_content = sha256(content).hexdigest()
        hashes[hash_of_content] = content

content = hashes['20c38a7a55fc8a8e7f45fde7247a0436d97826c20c5e7f8c978e6d59fa895fd2']
print(content.decode('utf-8'))
print(len(hashes))

当你运行这个脚本时，输出结果如下：

I am a good girl.
3

可以看到，虽然有四个文件，但最终输出是 3，因为有三个文件的内容是唯一的。这就是内容寻址的工作方式，它只关注内容，而不关心文件名。

5. 处理大文件：Merkle 树的应用

当处理大文件时，直接对整个文件进行哈希处理是不高效的，甚至可能导致内存不足。通常，我们会将大文件分割成多个相同大小的小文件。

例如，一个 900 KB 的文件可以分割成四个文件，前三个文件大小为 250 KB，第四个文件大小为 150 KB。然后，我们对每个小文件进行哈希处理，并使用 Merkle 树将它们组合起来。

为了演示这个过程，我们在项目目录中创建一个名为 hello_big.txt 的文件，内容如下：

I am a big boy.
I am a tall girl.
I am a fast horse.
I am a slow dragon.

在创建脚本对这个大文件进行哈希处理之前，我们先创建一个简单的 Merkle 树库 merkle_tree.py 。以下是该库的代码：

from math import ceil
from typing import List
from hashlib import sha256

class MerkleTree:
    def __init__(self, leaf_nodes : List[str]):
        self.hash_nodes : List[str] = []
        self.leaf_nodes : List[str] = leaf_nodes
        self._turn_leaf_nodes_to_hash_nodes()
        if len(leaf_nodes) < 4:
            self.root_hash = self._hash_list()
        else:
            self.root_hash = self._build_root_hash()

    def _hash_list(self):
        long_node = "".join(self.hash_nodes)
        return self._hash(long_node.encode('utf-8'))

    def _turn_leaf_nodes_to_hash_nodes(self):
        for node in self.leaf_nodes:
            self.hash_nodes.append(self._hash(node.encode('utf-8')))

    def _hash(self, data : bytes) -> bytes:
        return sha256(data).hexdigest()

    def _build_root_hash(self) -> bytes:
        parent_amount = ceil(len(self.hash_nodes) / 2)
        nodes : List[str] = self.hash_nodes
        while parent_amount > 1:
            parents : List[bytes] = []
            i = 0
            while i < len(nodes):
                node1 = nodes[i]
                if i + 1 >= len(nodes):
                    node2 = None
                else:
                    node2 = nodes[i+1]
                parents.append(self._convert_parent_from_two_nodes(node1, node2))
                i += 2
            parent_amount = len(parents)
            nodes = parents
        return parents[0]

    def _convert_parent_from_two_nodes(self, node1 : bytes, node2) -> bytes:
        if node2 == None:
            return self._hash((node1 + node1).encode('utf-8'))
        return self._hash((node1 + node2).encode('utf-8'))

然后，我们创建一个 Python 脚本 hash_big_file.py 来对 hello_big.txt 文件进行哈希处理：

from os import listdir
from hashlib import sha256
from merkle_tree import MerkleTree

hashes = {}
file = 'hello_big.txt'
with open(file) as f:
    lines = f.read().split('\n')
    hash = []
    hash_of_hash = []
    merkle_tree = MerkleTree(lines)
    root_hash = merkle_tree.root_hash

hashes[root_hash] = []
for line in lines:
    hashes[root_hash].append(line)

print(hashes)

运行这个脚本，输出结果如下：

{'ba7a7738a34a0e60ef9663c669a7fac406ae9f84441df2b5ade3de1067c41808': ['I am a big boy.', 'I am a tall girl.', 'I am a fast horse.', 'I am a slow dragon.', '']}

通过这种方式，我们可以得到根哈希，它可以保护原始文件的完整性。如果文件中的任何一个比特发生改变，根哈希都会不同。

6. Merkle DAG 数据结构：保存文件名和内容

在某些情况下，文件名也很重要。例如，在一个编程项目的目录中，如果一个 Python 文件要导入另一个 Python 库，我们必须保留文件名。

为了同时保存文件内容和文件名，我们需要使用 Merkle DAG 数据结构。

我们创建一个示例目录 sample_directory ，并在其中创建一些文件和一个嵌套目录 inner_directory ，在 inner_directory 中也创建一些文件。

然后，我们创建一个 Python 文件 merkle_dag.py 来实现 Merkle DAG 节点类：

from os import listdir
from pathlib import Path
from hashlib import sha256
from merkle_tree import MerkleTree

class MerkleDAGNode:
    def __init__(self, filepath : str):
        self.pointers = {}
        self.dirtype = Path(filepath).is_dir()
        self.filename = Path(filepath).name
        if not self.dirtype:
            with open(filepath) as f:
                self.content = f.read()
            self.hash = self._hash((self.filename + self.content).encode('utf-8'))
        else:
            self.content = self._iterate_directory_contents(filepath)
            nodes_in_str_array = list(map(lambda x: str(x), self.content))
            if nodes_in_str_array:
                self.hash = self._hash((self.filename + MerkleTree(nodes_in_str_array).root_hash).encode('utf-8'))
            else:
                self.hash = self._hash(self.filename.encode('utf-8'))

    def _hash(self, data : bytes) -> bytes:
        return sha256(data).hexdigest()

    def _iterate_directory_contents(self, directory : str):
        nodes = []
        for f in listdir(directory):
            merkle_dag_node = MerkleDAGNode(directory + '/' + f)
            nodes.append(merkle_dag_node)
            self.pointers[f] = merkle_dag_node
        return nodes

    def __repr__(self):
        return 'MerkleDAGNode: ' + self.hash + ' || ' + self.filename

    def __eq__(self, other):
        if isinstance(other, MerkleDAGNode):
            return self.hash == other.hash
        return False

最后，我们创建一个 hash_directory.py 文件来演示 Merkle DAG 的威力：

from merkle_dag import MerkleDAGNode

outer_directory = 'sample_directory'
node = MerkleDAGNode(outer_directory)
print(node)
print(node.content)

运行这个脚本，输出结果如下：

MerkleDAGNode: ec618189b9de0dae250ab5fa0fd9bf1abc158935c66ff8595446f5f9b929e037 || sample_directory
[MerkleDAGNode: 97b97507c37bd205aa15073fb65367b45eb11a975fe78cd548916f5a3da9692a || hello2.txt, MerkleDAGNode: 8ced218a323755a7d4969187449177bb2338658c354c7174e21285b579ae2bca || hello.txt, MerkleDAGNode: c075280aef64223bd38b1bed1017599852180a37baa0eacce28bb92ac5492eb9 || inner_directory, MerkleDAGNode: bc908dfb86941536321338ff8dab1698db0e65f6b967a89bb79f5101d56e1d51 || hello3.txt]

这个输出展示了 Merkle DAG 节点的结构。这就是 Git 保存文件的方式。不过，我们的实现只是为了教学目的，在实际应用中需要进行许多优化。

7. 优化建议

在实际应用中，我们可以对 Merkle DAG 进行一些优化：
- 数据引用 ：如果有两个不同的文件内容相同（但文件名不同），可以只保存一次内容，就像 Git 那样。
- 压缩：使用压缩算法来减少存储空间。

通过这些优化，可以提高 Merkle DAG 的性能和效率。

Merkle DAG 是一种强大的数据结构，它结合了 Merkle 树和 DAG 的优点，在数据完整性验证、分布式文件系统等领域有着广泛的应用。通过内容寻址和 Merkle DAG 数据结构，我们可以更高效、更安全地管理和存储数据。希望本文能帮助你更好地理解 Merkle DAG 的原理和应用。

探索 Merkle DAG：一种创新的文件系统数据结构

8. 实际应用案例分析

Merkle DAG 在多个领域都有实际应用，下面我们通过几个具体案例来进一步了解它的强大之处。

8.1 版本控制系统（如 Git）

在版本控制系统中，Merkle DAG 用于跟踪文件的不同版本和变化。以 Git 为例，当我们提交代码时，Git 会为每个提交创建一个节点，节点中包含了该提交的元数据（如作者、提交时间等）以及指向父提交的指针。这些节点通过有向边连接起来，形成一个 DAG 结构。

节点	描述
提交节点	包含提交的元数据和指向父提交的指针
树节点	表示目录结构，指向文件节点或其他树节点
文件节点	表示文件内容的哈希值

通过 Merkle DAG，Git 可以高效地比较不同版本之间的差异，快速定位文件的修改历史，并且可以轻松地进行分支和合并操作。

8.2 分布式文件系统（如 IPFS）

IPFS 是一个基于内容寻址的分布式文件系统，Merkle DAG 是其核心数据结构之一。在 IPFS 中，每个文件或目录都被表示为一个 Merkle DAG 节点，节点的哈希值作为其唯一标识符。

当用户上传文件时，IPFS 会将文件分割成多个小块，并为每个小块计算哈希值。这些小块的哈希值组成了 Merkle 树的叶子节点，通过递归计算得到根哈希值。根哈希值作为文件的唯一标识符，可以用于在网络中查找和验证文件的完整性。

graph LR;
    A[文件] --> B[小块 1];
    A --> C[小块 2];
    A --> D[小块 3];
    B --> E[哈希 1];
    C --> F[哈希 2];
    D --> G[哈希 3];
    E --> H[父哈希 1];
    F --> H[父哈希 1];
    G --> I[父哈希 2];
    H --> J[根哈希];
    I --> J[根哈希];

通过这种方式，IPFS 可以实现文件的高效存储和分发，同时保证文件的完整性和不可篡改性。

9. 技术挑战与解决方案

虽然 Merkle DAG 具有很多优点，但在实际应用中也面临一些技术挑战。下面我们来分析这些挑战，并提出相应的解决方案。

9.1 存储开销

Merkle DAG 需要存储大量的哈希值和节点信息，这会增加存储开销。为了减少存储开销，可以采用以下方法：
- 压缩算法 ：使用压缩算法对哈希值和节点信息进行压缩，减少存储空间的占用。
- 数据共享 ：对于相同内容的文件或节点，只存储一次，通过引用的方式共享数据。

9.2 性能问题

在处理大规模数据时，Merkle DAG 的构建和查询可能会变得缓慢。为了提高性能，可以采用以下方法：
- 并行计算 ：利用多核处理器或分布式计算平台，并行计算哈希值和构建 Merkle DAG。
- 缓存机制 ：使用缓存机制存储常用的哈希值和节点信息，减少重复计算。

9.3 安全性问题

Merkle DAG 的安全性依赖于哈希函数的安全性。如果哈希函数被破解，攻击者可以篡改数据而不被发现。为了提高安全性，可以采用以下方法：
- 选择安全的哈希函数 ：选择经过广泛验证和安全评估的哈希函数，如 SHA-256。
- 多哈希验证 ：使用多个哈希函数对数据进行验证，增加攻击的难度。