基于区块链与SQL数据库的数字孪生证据管理系统:比较性取证分析

大家读完觉得有帮助记得关注和点赞!!!

摘要

随着数字孪生和元宇宙技术的出现,数字取证面临着前所未有的挑战。本文首次对基于区块链的传统数据库系统与传统SQL数据库系统在取证调查中管理数字孪生证据进行了比较分析。我们进行了受控实验,比较了结合IPFS存储的以太坊区块链与传统SQL数据库在数字孪生证据管理方面的表现。我们的研究结果表明,虽然区块链提供了对取证应用至关重要的卓越数据完整性和不可篡改性,但传统数据库提供了更好的性能一致性。区块链实现显示出更快的平均存储时间,但在检索操作中具有更高的变异性。两种系统都通过哈希验证保持了取证完整性,尽管区块链的不可变性质为法律程序提供了额外的安全保障。这项研究为元宇宙时代新兴技术的鲁棒数字取证方法的发展做出了贡献。

1 引言

数字孪生和区块链技术的快速发展已经从根本上改变了刑事调查和数字取证的格局。数字孪生 [mihai2022digital] 是物理实体、过程或系统的复杂虚拟副本,通过先进的传感器数据集成和计算分析,能够对现实世界场景进行全面建模和仿真。区块链技术 [zheng2018blockchain] 是一种分布式账本,在去中心化网络中维护加密安全和不可变的交易记录。这些技术的出现 [suhail2022blockchain] 为管理数字证据和维护证据完整性提供了强大的工具。

在数字取证背景下,数字孪生可以作为综合证据库,不仅捕获静态数据,还捕获动态交互和环境条件 [becker2024role]。这种能力在法律程序中具有潜力,可以在法庭上用作物理证据的副本,并可能对复杂场景进行详细检查。将区块链技术与数字孪生相结合,有望通过提供一个去中心化、不可变和透明的账本来记录与数字孪生证据相关的交互和元数据,从而增强证据处理。特别是,区块链技术使得数字证据能够以私有方式在线加密存储元数据,并避免未经授权的访问 [suhail2022blockson, yaqoob2020blockchain]。然而,与传统的数据库系统 [silva2016sql] 相比,使用基于区块链的系统来管理潜在庞大而复杂的数字孪生数据的实际性能影响,在数字取证背景下的探索仍然不足。

本文通过对基于区块链的系统与传统SQL数据库系统在存储和检索数字孪生证据方面进行对比分析,来解决这一差距。为了实现这一目标,我们开发了两个并行环境:一个结合了星际文件系统(IPFS)存储的私有以太坊区块链 [buterin2013ethereum] 与一个传统的MySQL数据库系统。我们评估了两种系统在处理不同大小(即从1MB到200MB)的数字孪生时的效率(定义为存储(POST)和检索(GET)操作所花费的时间)。此外,我们通过哈希值比较验证证据的完整性,评估了每种方法的取证效用。还开发了一个使用A-Frame框架的Web界面,以支持数字孪生证据的交互式3D可视化,从而支持取证分析工作流程。在实验中,我们使用科恩d值 [diener2010cohen] 进行效应大小确定,并使用线性回归进行可扩展性评估。

总结如下:

  • 定量性能比较:​ 我们首次对基于区块链的系统与传统SQL数据库系统进行了定量比较,特别针对取证应用中的数字孪生证据管理。

  • 取证完整性机制评估:​ 我们通过实施和验证基于哈希的完整性检查,评估了两种系统的取证健全性。这包括利用区块链的不可变性记录IPFS哈希,并将其与SQL数据库中的哈希存储和验证进行比较。

  • 实验框架的实现:​ 我们详细设计并实现了两个受控实验环境,包括以太坊、Solidity智能合约、IPFS、MySQL数据库的集成,以及一个具有A-Frame界面、用于交互和3D可视化的基于Python的统一Web应用程序。

  • 可扩展性及性能与完整性权衡分析:​ 我们深入分析了每种系统固有的可扩展性影响以及性能与完整性的权衡。这为从业者和研究人员在选择或设计数字孪生证据管理系统时提供了指导。

2 相关工作

2.1 区块链在数字取证中的应用

近期的研究广泛探讨了区块链在增强数字取证能力方面的潜力。Li等人 [li2019blockchain] 开发了一个基于区块链的物联网(IoT)取证框架,即IoT-雾-云(IoTFC),解决了动态环境中证据真实性和可追溯性的挑战。该框架提供了透明的审计追踪,以增强调查实体之间的信任。Gopalan等人 [gopalan2019digital] 证明了如何利用区块链的去中心化和防篡改特性来确保证据完整性和纯度的维护。他们提出的基于区块链的系统对数据进行哈希处理并存储在区块中,确保数字证据免受未经授权的更改或删除。另一项研究详细分析了如何应用区块链技术来改进取证科学(特别是物理证据)中的监管链控制 [batista2023exploring]。Alqahtany和Syed等人 [alqahtany2024forensictransmonitor] 引入了ForensicTransMonitor,这是一种用于取证交易和证据保存的综合性区块链方法。他们的系统利用区块链的不可变性来确保证据完整性,同时通过智能合约提供自动验证机制。这意味着取证过程中的所有活动都作为可验证的交易记录在区块链上。

区块链在溯源管理方面的应用在科学数据管理中显示出有希望的结果。Ramachandran和Kantarcioglu等人 [ramachandran2017using] 开发了DataProv,它利用区块链的分布式特性来防止未经授权的修改,同时实施智能合约进行自动验证。他们的系统在跟踪临床药物试验和农业供应链方面展示了有效性,突出了区块链在跨不同领域维护数据完整性方面的多功能性。

2.2 数字孪生的应用

数字孪生已成为工业物联网的强大工具。Attaran等人 [attaran2024digital] 探讨了数字孪生与工业物联网之间的关系。文章通过开发物理系统的精确副本,确定了数字孪生在制造业中的一些应用,这些副本可用于实时监控和预测性维护。人工智能(AI)算法已被用来提高数字孪生的预测或自动化能力。Zhang等人 [zhang2017digital] 引入了一种模块化方法,提出了一种智能多目标优化算法,使数字孪生不仅能够模拟生产线,还能优化其设计和动态执行。Sun等人 [sun2020digital] 利用CNN、RNN和PCNN等模型来处理和构建复杂的多源数据,包括来自装配过程的图像、噪声和3D点云。这种方法有助于增强装配调试过程和自主决策。

数字孪生与信息-物理-社会系统(CPSS)的集成在安全应用方面显示出特别的潜力。Han等人 [han2022paradefender] 引入了ParaDefender,一种场景驱动的并行架构,使用数字孪生来增强元宇宙安全性。他们的系统展示了数字孪生如何用于现实世界的用例。

2.3 元宇宙数字取证

元宇宙技术的出现带来了新的取证挑战,需要专门的工具和方法。Kim等人 [kim2023digital] 概述了从头戴式显示器(HMD)提取和分析数据的方法。这项工作突出了元宇宙取证的独特之处,即证据既存在于物理设备上,也存在于虚拟环境中。Huynh-The等人 [huynh2023blockchain] 研究了区块链在元宇宙安全中的作用,强调分布式账本如何支持虚拟环境中的数据完整性和不可否认性。他们的研究指出,虚拟现实(VR)和区块链技术的融合为取证调查创造了新的维度,其中数字交互必须是可验证和可审计的。

从以往工作中识别出的研究空白。​ 文献中识别的研究空白包括:(i)缺乏针对取证应用的区块链与传统数据库系统之间的全面性能比较;(ii)对混合存储方法的评估有限;(iii)对区块链对取证工作流程效率影响的调查不足。

3 问题陈述与取证方法

3.1 动机

当前数字取证中的证据管理系统严重依赖集中式数据库和传统存储架构,这些架构在数据完整性、监管链维护和跨司法管辖区证据共享方面存在显著漏洞。这些系统的集中性要求调查机构之间建立复杂的信任关系,特别是在国际合作中,证据真实性和防篡改成为关键的法律考量 [hofmeister2017icrc]。区块链技术与数字孪生在法律领域的整合代表了以下机遇:

  • 数字孪生可以完成对犯罪现场或事件的详细而准确的再现,使调查人员能够收集全面的取证数据。VR设备可用于沉浸式分析,允许取证专家遍历包含所有细节的虚拟环境。

  • 数字孪生的哈希值存储在私有以太坊区块链上,而实际的数字孪生则存储在IPFS网络上。这提高了数据的安全性和完整性,因为区块链将确保证据未被篡改,而IPFS保证了这些文件的高效和安全存储与检索。

  • 区块链技术保证了记录数字孪生所经历的所有交易和变化的透明度。

3.2 取证方法

本工作通过定量比较分析,调查基于区块链的系统与传统SQL数据库系统在管理数字孪生模型方面的功效,重点关注两种系统的效率。为实现此分析,我们实施了两个并行的受控环境,以系统评估每种方法的性能、完整性和取证效用。

在我们的方法中,数字孪生被视为可能代表以下内容的取证工件:

  • 包含空间和时间数据的犯罪现场重建

  • 物理证据(武器、车辆或其他物体)的3D模型

  • 环境条件及其随时间演变

  • 基于多数据源的事件虚拟重建

图1:​ 所采用的取证方法流程图。

每个数字孪生在提交时都会经过加密哈希(MD5)处理,以确保证据生命周期的完整性验证。哈希值与证据一起存储在两个系统中,使取证检查员能够验证数字孪生在存储或传输过程中是否被更改或损坏。

3.2.1 受控环境实施。

我们建立了两个不同的取证证据管理系统:

  • 基于区块链的系统:​ 一个集成了星际文件系统(IPFS)[ipfsIPFSDocumentation] 用于去中心化存储的私有以太坊区块链网络 [buterin2013ethereum]。使用Solidity [wohrer2018smart] 开发的智能合约管理与区块链的交互。数字孪生文件通过Pinata.cloud固定服务 [pinataPinningService] 存储在IPFS上。核心思想是将大的数字孪生文件链下存储在IPFS上,并仅将其不可变的IPFS哈希及相关元数据记录在区块链上。

  • 传统SQL数据库系统:​ 采用一个标准的MySQL数据库,该数据库托管在Aiven.com云服务 [aivenAivenYour] 上。在此环境中,数字孪生文件与其相关的元数据和MD5哈希值一起作为二进制大对象(BLOB)直接存储在SQL数据库中。

两个环境都通过一个统一的基于Python的后端进行访问,该后端标准化了存储和检索操作,确保两种方法之间的公平比较。

3.2.2 存储和检索过程。

图1说明了我们取证方法的两个主要过程。

  • 存储过程(POST):​ 对于区块链系统,当以数字孪生形式存在的数字证据提交到系统时,它被上传到IPFS。IPFS随后返回一个唯一的内容标识符(CID),该标识符随后通过智能合约交易与文件的MD5哈希一起记录在以太坊区块链上。对于SQL系统,数字孪生文件与其计算出的MD5哈希和相关元数据一起直接存储在数据库中。

  • 检索过程(GET):​ 当取证调查员需要访问证据时执行此过程。对于区块链系统,使用区块号查询智能合约以检索IPFS哈希,然后用该哈希从IPFS网络获取数字孪生。相反,在SQL系统中执行直接数据库查询,根据其唯一标识符检索数字孪生。

图2:​ Web应用程序中检索到的数字孪生示例。

3.2.3 Web界面和可视化框架。

为便于取证分析和证据检查,我们使用A-Frame框架 [aframeAFrameMake] 开发了一个基于Web的界面,该框架提供了对数字孪生证据分析至关重要的沉浸式3D可视化能力。此界面有两个主要目的:(i)调查员可以通过标准化的Web表单上传数字孪生模型,启动在区块链或SQL系统中的存储过程;(ii)该界面提供了一个分析环境,供调查员实时与3D数字孪生模型交互,从多个角度检查证据,并比较不同时间段或版本的证据。图2展示了Web应用程序中显示的数字孪生文件。

该Web应用程序保持系统无关的功能,无论数字孪生是通过区块链/IPFS存储还是通过传统SQL数据库存储,都能无缝检索和显示。此外,它还确保跨两种存储范式的一致取证分析能力。

4 实验

4.1 工具

用于构建基于区块链的系统、传统SQL数据库系统和A-frame网页的工具总结在表1中。

4.2 数据集

为进行分析,我们收集了一个来自公开可用的3D模型库的数字孪生模型数据集。由于实际案例数据固有的敏感性,利用公开来源提供了一种获取多样化测试模型的道德途径。我们的数据集包含10个不同的3D模型,选择这些模型是为了反映潜在的数字孪生证据场景,例如车辆重建。这些模型被特意选择以覆盖从1MB到200MB的范围。

表1:​ 我们实验中使用的工具总结。

工具

类别

版本

在实验中的作用/目的

Ganache [trufflesuiteGanacheTruffle]

区块链环境

v2.7.1

作为受控测试环境的私有区块链系统

Pinata [pinataPinningService]

区块链环境

API v1

用于数字孪生模型的去中心化IPFS文件存储

Solidity [soliditylangIntroductionSmart]

区块链环境

v0.8.19

用于证据管理逻辑的智能合约开发

MySQL

数据库环境

v8.0

用于传统证据存储的关系数据库

Aiven [aivenAivenYour]

数据库环境

定制

云数据库托管服务

PyMySQL

数据库环境

v1.0.3

Python MySQL数据库连接器

A-Frame

用户界面和可视化

v1.5.0

基于Web的VR框架,用于3D模型可视化

Flask

用户界面和可视化

v2.3.2

用于应用程序后端的Python Web框架

HTML5 / CSS3 / JavaScript

用户界面和可视化

ES6+

用于Web界面的前端技术

Python

开发和分析工具

v3.9+

系统实现的主要编程语言

SPSS

开发和分析工具

v29.0

统计分析和假设检验

4.3 存储和检索操作配置

  • 以太坊区块链配置:​ 区块链环境使用了一个私有以太坊网络(Ganache),具体规格如下:

    • 网络ID:用于受控实验的私有测试网。

    • 使用Solidity进行智能合约部署以进行证据管理。

    • 通过Pinata服务(1GB免费层级)集成IPFS。

    • 使用Web3.py库进行区块链交互。

    • 包含区块链URL、合约地址和API凭证的JSON配置文件。

  • SQL数据库配置:​ SQL环境采用MySQL,设置如下:

    • Aiven云托管服务(5GB免费层级)。配置包括主机地址、端口号、认证凭证和数据库名称。

    • 带有元数据表的直接文件存储。

    • 使用PyMySQL驱动进行数据库连接。

    • 附加参数,如字符集(utf8mb4)和连接、读取、写入操作的超时值均设置为10秒,以确保可靠的数据库操作。

表2:​ 实验变量及其特征。

变量

类型

描述

范围/值

文件大小

自变量(连续)

数字孪生证据文件的大小

1-200 MB

存储方法

自变量(分类)

存储系统类型

区块链/IPFS, SQL

网络速度

自变量(连续)

网络带宽

100/100 Mbps

执行时间

因变量

POST/GET操作的时间

以秒为单位测量

取证完整性

因变量

哈希验证成功与否

布尔值(通过/失败)

4.4 关键变量

表2总结了实验设计中的关键变量。文件大小作为自变量(连续变量),范围从1到200 MB,代表不同大小的数字孪生证据文件。存储方法是一个自变量(分类变量),有两个水平:带IPFS的区块链和传统SQL数据库。网络速度是连续自变量,控制在100/100 Mbps以保持一致的网络条件。执行时间(以秒为单位)是POST和GET操作的主要因变量。取证完整性作为二元因变量进行评估,指示哈希验证是否成功。

4.5 评估指标

为了评估基于区块链的系统与传统SQL数据库系统在管理数字孪生证据方面的性能和取证效用,我们采用了一套定量和定性指标。

  • 效率分析。​ 效率的主要指标是存储(POST)和检索(GET)操作所需的执行时间(以秒为单位)。对于每个事务,我们计算平均执行时间:

    T̄ = (1/n) * Σ(i=1 to n) T_i (1)

    其中 n 是文件数量,T_i 是第 i 个事务的执行时间:T_i = T_i_end - T_i_start。

    为了量化两个系统之间性能差异的大小,我们计算了科恩D值 [diener2010cohen],计算如下:

    D = (T̄blockchain - T̄SQL) / σ_pooled (2)

    其中 T̄blockchain 和 T̄SQL 分别是基于区块链的系统传统SQL数据库系统的平均执行时间;σ_pooled 是合并标准差,计算为 σ_pooled = √[(σ_blockchain² + σ_SQL²)/2]。这种效应大小度量有助于理解观察到的差异在实际意义上的重要性,而不仅仅是统计显著性。

  • 可扩展性分析。​ 为了评估每个系统随着数字孪生文件大小增加时的表现,我们进行了线性回归分析 [devore2003linear]。这有助于理解文件大小(自变量)和执行时间(因变量)之间的关系。我们为每种存储方法和操作类型分别拟合回归模型。一般模型是:

    执行时间 = β₀ + β₁ × 文件大小 + ϵ (3)

    其中 β₀ 是截距,β₁ 是代表文件大小每增加一个单位所需时间变化的系数,ϵ 是误差项。

  • 取证完整性评估。​ 取证完整性根据哈希值验证结果作为二元结果(通过/失败)进行评估。检索时,重新计算数字孪生文件的MD5哈希值,并与初始存储操作期间存储的哈希值进行比较。

5 结果描述

在本节中,我们呈现比较实验的结果和发现。我们重点分析了使用基于区块链的系统传统SQL数据库系统管理数字孪生证据的效率和取证完整性。

5.1 描述性统计

我们进行了受控实验,分析存储和检索10个不同大小(即从1MB到200MB)的数字孪生模型(n=10)的执行时间。来自区块链传统SQL数据库系统的实验结果显示,存储和检索操作之间存在显著的性能差异。表3呈现了基于区块链的系统传统SQL数据库系统在存储(POST)和检索(GET)操作方面的描述性统计。

表3:​ 实验结果的描述性统计。

操作类型

存储方法

平均时间 (s)

标准差 (s)

最短时间 (s)

最长时间 (s)

存储 (POST)

区块链

16.43

9.43

4.08

30.97

存储 (POST)

SQL 数据库

25.36

16.85

2.56

51.77

检索 (GET)

区块链

15.95

10.65

3.36

23.59

检索 (GET)

SQL 数据库

11.01

7.21

1.13

22.59

从表3可以观察到,区块链系统在存储操作上实现了更快的平均性能(16.43秒 vs 25.36秒),而SQL数据库在检索操作方面优于区块链系统(11.01秒 vs 15.95秒)。

(a) 存储操作

(b) 检索操作

图3:​ 基于区块链的系统与SQL数据库系统的存储和检索操作比较。

5.2 按文件大小进行的性能分析

我们分析了在两个系统上存储和检索10个数字孪生模型的执行时间。图3(a)说明了两种系统的文件大小与存储执行时间之间的关系。基于区块链的系统显示出卓越的存储性能,平均时间比SQL数据库快35%。这一结果表明,区块链/IPFS混合架构在处理较大文件时受益于批处理效率和分布式存储机制。

相反,关于检索操作,图3(b)显示SQL数据库在不同文件大小下保持更一致的性能,平均时间快31%。然而,当文件大小增加到200MB时,两种系统之间的检索执行时间差异变小。这表明基于区块链的系统对于较大文件可能比SQL数据库系统更有效。

5.3 可扩展性分析。

为了了解每个存储系统如何处理不断增加的数据负载,我们使用线性回归分析了数字孪生文件大小与执行时间之间的关系。

(a) 存储操作

(b) 检索操作

图4:​ 基于区块链的系统与SQL数据库系统的存储和检索操作耗时散点图。

回归分析(如图4所示)揭示了重要的可扩展性特征:

  • 存储可扩展性(图4(a)):​ 虽然SQL数据库系统的平均存储时间较高,但其趋势线显示时间随文件大小呈更线性的增长。尽管表现出更多的变异性,但区块链存储的趋势线比SQL的趋势线更平缓。这表明随着文件大小的增长,区块链系统的存储时间增加不那么明显,暗示其在存储操作方面可能具有更好的可扩展性。

  • 检索可扩展性(图4(b)):​ SQL检索的趋势线更平缓且更线性。这表明SQL检索时间随着文件大小的增长以较慢且更可预测的速率增加,暗示其在检索操作方面具有更好的可扩展性。相反,区块链系统的检索操作所需时间随着文件大小的增大而增长更快,表明其在检索过程中处理更大数据集的潜在可扩展性挑战。

5.4 取证完整性分析

我们通过验证哈希值来评估两个系统的数据完整性。在评估期间,我们将两个系统中存储的哈希值与数据首次创建时生成的原始MD5哈希值进行比较。结果表明,两个系统都成功保持了取证健全性,因为所有哈希值都正确匹配原始值。这证实了两个系统都可以提供可验证的记录,表明数字孪生证据未被更改。然而,区块链固有的不可变性和去中心化性质提供了额外的安全性和信任层,这对于证明未篡改至关重要的法律程序尤其有价值。

6 结果讨论

我们对基于区块链(以太坊/IPFS)的系统与传统SQL数据库系统在管理数字孪生证据方面的比较分析,揭示了它们在数字取证背景下各自优势和劣势的重要见解。结果突出了性能效率与数据完整性保证的鲁棒性之间的关键权衡。

首先,我们的实验表明,基于区块链的系统在存储数字孪生证据方面更快,表明其在处理大文件方面的效率。然而,SQL数据库系统在检索操作方面表现更优。

其次,结果表明了可扩展性方面的权衡:在这个特定实验中,SQL在数字孪生的一致和高效检索方面似乎更具可扩展性,而区块链/IPFS方法在存储方面显示出更好的可扩展性前景,尽管其存在固有的性能变异性。

关键的是,虽然两个系统都通过哈希验证保持取证完整性,但区块链固有的不可变性和去中心化提供了显著更高级别的安全性。这对于证明证据未被篡改至关重要的法律程序至关重要。

因此,选择取决于优先级。对于快速和一致的访问,SQL仍然很强。对于要求最高级别的可验证完整性和信任的情况,区块链提供了令人信服的优势,尽管其当前存在性能开销。

7 结论

本工作首次对取证背景下基于区块链的系统传统数据库系统用于数字孪生证据管理进行了比较分析。通过受控实验,我们评估了处理1MB到200MB文件的存储(POST)和检索(GET)时间性能,并进行了关键的取证完整性评估。我们的研究结果强调了性能与完整性的权衡:(i)基于区块链的系统在存储操作上更快,而SQL数据库系统在检索操作上表现更优;以及(ii)区块链固有的不可变性和去中心化信任模型提供了更高的安全保证。未来的工作应侧重于优化区块链性能,并探索区块链和SQL数据库系统的混合模型,以利用两种范式的优势。

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值