10、利用数据挖掘提升已知文件数据库有效性

利用数据挖掘提升已知文件数据库有效性

在数字取证领域,已知文件数据库的有效性对于提高调查效率至关重要。本文将介绍一种通过数据挖掘技术改进已知文件数据库的方法,旨在提高文件过滤的效果,减少计算开销。

1. 提出的方法

为了提高已知文件数据库的有效性,提出了基于文件相关性的三种方法:
- 应用数据挖掘技术 :从特定国家或地理区域的计算机样本中识别新的可忽略文件。
- 选择有效哈希集 :从传统哈希数据库中选择能有效代表该地区软件使用情况的哈希集。
- 使用最新哈希集 :基于统计显著性,从传统哈希数据库中选取最新的哈希集。

在刑事调查中遇到的计算机是样本集的理想选择,因为它们来自不同的地点和社会阶层,能很好地代表常用软件。但需确保样本计算机中的文件未受恶意软件感染。通过数据挖掘过程,可以找到数据中的模式,并创建一个模型,根据文件的相关性对样本文件进行分类。将被识别为无关的文件的哈希值添加到数据库中作为可忽略文件。

2. 初步研究

如果在多台不相关的计算机上发现相同版本的文件,那么该文件很可能是常见文件,对调查没有有用信息。通过对巴西联邦警察调查的19个刑事案件的硬盘进行研究,使用NSRL RDS 2.31和KFF数据库对文件进行分类,结果如下表所示:
| 文件描述 | 总数 |
| — | — |
| 1. 总唯一文件 | 871,590 |
| 1.1 过滤为“可忽略” | 79,473 |
| 2. 存在于多个证据中的总唯一文件 | 58,541 |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值