大数据证据识别与Hadoop分布式文件系统数据收集
在大数据时代,准确识别和收集相关证据对于各类调查至关重要。下面将详细介绍大数据证据识别的相关内容以及Hadoop分布式文件系统(HDFS)数据的收集方法。
大数据证据识别
在数据识别阶段,由调查人员主导的收集工作与内部收集或第三方收集在本质上是相似的。调查人员若要进行数据收集,需起草一份收集计划,该计划应明确以下内容:
- 需收集的信息 :明确具体要收集哪些信息。
- 收集步骤 :详细规划收集信息的具体步骤。
- 收集过程的记录方式 :确定如何记录整个收集过程。
根据调查性质,调查人员可与系统所有者分享收集计划,以确保所有系统都能正常使用,同时减少对组织的潜在干扰。
证据收集后,必须立即建立证据保管链文档。若由内部员工或第三方进行收集,收集人员和持有证据的人员都需填写保管链表格。保管链文档是一份按时间顺序记录证据持有情况的历史记录,在刑事和民事调查中,它对于证明谁有权访问证据以及谁可能篡改证据至关重要。每次证据在两人之间交接时,都要更新保管链文档,记录交接时间和参与人员。
数据识别是一个迭代过程,旨在定位与潜在相关数据有关的信息来源。它既需要艺术眼光,也需要科学方法,要充分利用现有的信息来源。首先要确定所有数据源、数据源所有者以及数据源的内容。然后,调查人员可以明确每个数据源中可用的信息,并确定需要从每个数据源收集哪些信息。由于大数据系统数据量巨大,收集PB级数据通常不可行,因此调查人员在确定收集哪些数据时需谨慎。但同时,也必须确保第一次就完整收集
超级会员免费看
订阅专栏 解锁全文
44

被折叠的 条评论
为什么被折叠?



