Hadoop分布式文件系统分析全解析
1. Hadoop文件元数据分析
在对Hadoop文件进行分析时,有多种元数据信息可供参考,包括文件是否删除、最后访问/创建/修改时间、文件大小、哈希值、权限以及文件路径等。根据调查的性质,以下几种元数据分析可能会很有用:
- 识别异常或离群值 :基于文件数量或者文件大小(极大或极小)来识别异常情况。
- 定位特定特征文件 :例如查找已删除的文件或者在关键时间段内被访问的文件。
- 发现数据模式 :确定正常工作时间内的文件活动,然后找出异常情况。
- 查找相关文件 :寻找与已知相关文件有关的文件,看是否能从具有特定相关特征(如相同文件路径或扩展名)的文件中发现额外线索或信息。
在导出时,Autopsy列出的文件数量可能会超过Excel分析的限制,此时可能需要使用数据库。任何能够聚合大量数据并让调查人员处理单个记录的工具都适用于这种分析。
2. 删除文件分析
分析删除文件是调查中的一种重要形式。在调查人员进行数据收集之前删除文件是一种常见的干扰调查的手段,但文件也可能是意外删除或者作为自动数据清理过程的一部分被删除。在大数据调查中,可能会出现以下几种文件删除情况:
- 文件从节点的本地操作系统中被删除。
- 文件从HDFS中被删除。
- Hadoop数据从文件内部被删除。
2.1 恢复本地操作系统中删除的文件
如果收集了节点的法医映像,恢复从节点本地操作系统中
超级会员免费看
订阅专栏 解锁全文
876

被折叠的 条评论
为什么被折叠?



