大数据取证:以Hadoop分布式文件系统为例
1. 相关研究
尽管大数据分析的应用相对较新,但已有不少研究人员开始对HDFS和其他分布式文件系统环境进行取证研究,旨在拓宽取证界对这些系统的认识。目前,大多数大数据取证工作基于先前为云调查开发的程序,例如用于分析端点设备、云存储平台和网络流量数据的程序。同时,也有研究开发了取证指南,以构建分布式文件系统取证的可接受框架。
- Martini和Choo :以XtreemFS为大数据取证案例进行深入实验,重点关注系统内某些数字工件的界定,以及从XtreemFS收集取证数据的问题。
- Thanekar等人 :采用整体方法进行Hadoop取证,通过分析传统日志文件并识别Hadoop内生成的不同文件,使用Autopsy等公认的取证工具从Hadoop环境中恢复各种文件。
- Leimich等人 :采用更有针对性的取证方法,对主NameNode的RAM中存储的元数据进行分类,以提供集群侦察信息,用于后续目标数据检索。但该研究未提供识别环境中用户操作的方法。
- Gao等人 :提出名为Haddle的新框架,用于对Hadoop环境进行取证分析,有助于重建犯罪现场、识别被盗数据和犯罪用户。
- Dinesh等人 :提出类似的事件响应方法,利用Hadoop环境中的日志确定攻击发生的时间线。
- Alshammari等人 :提出HDFS特定的