数字取证中的相似性哈希与可视化技术
1. 相似性哈希技术
在数字取证领域,相似性哈希技术是一项重要的研究内容。不同的研究者提出了多种相似性哈希方案。
- ssdeep工具 :Kornblum是最早提出将通用模糊哈希方案用于取证目的的研究者之一。他的ssdeep工具能生成最长80字节的字符串哈希,这些哈希是6位分段哈希的串联。比较时使用编辑距离。不过,ssdeep生成的固定大小哈希很快会失去粒度,仅适用于大小相近的相对小文件。
- Roussev等人的方案 :Roussev等人提出了一种利用对象内部结构的部分知识和布隆过滤器来推导相似性的方案。随后,他们又提出了一种Rabin风格的多分辨率方案,通过在多个分辨率下保留哈希来平衡性能和准确性要求。
- Pucha等人的方案 :在数字取证学科之外,Pucha等人提出了一种在对等网络中识别相似文件的有趣方案。该方法能识别大规模相似性,例如不同语言版本的同一部电影,可用于在对等网络中提供替代下载源。
Rabin指纹的随机化模型平均效果较好,但应用于实际数据时,常存在覆盖问题和高误报率。这两个问题都源于底层数据的信息内容可能有显著差异,导致特征大小和分布差异很大,使指纹覆盖高度倾斜。低熵特征也会产生异常高的误报率,使指纹作为比较基础不可靠。
目前,关于有效载荷归因系统的研究产生了越来越复杂的Rabin指纹版本,旨在确保均匀覆盖。但这些方法都未考虑弱(非识别性)特征导致的误报。实际上,覆盖和误报是内在相关的,选择弱特征来提高覆盖度会直接增加误报结果的风险。
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



