HackingTeam事件发生以来,很多Team与个人都对暴露出的数据进行了分析,挖掘出了很多的0day
Exploit、RCS机制、UEFI
Rootkit等等,很多从技术上展开了深入分析,对邮件也有全部导出公布到网上供查询和浏览的(虽然可以查询和浏览,但不够方便),除了0Day漏洞、漏洞利用技术、远程控制技术以外,邮件其实有很多值得分析,能够挖掘出有意思的情报信息。当然,对于不同的技术人员、研究人员关注点肯定不一样。当我拿到400G数据的时候,看到邮件就有将近200G,
就觉得应该对邮件进行分析,看看有啥发现,但是这么大信息量该如何分析就很值得思考,恰好最近在琢磨威胁情报、大数据、可视化之类的,正好拿此数据来看
看,因为时间关系,很多分析也没有深入进行,很多想好的分析也因为精力有限尚未开展,先把已进行的分析过程简单介绍下(主要集中在快速线索发现/快速找到
感兴趣的内容,毕竟邮件有240多万封)。
(1)数据处理
接近200G的Outlook文件,一个一个导入到Outlook里人工看是不现实的,只能想办法数据化这些邮件,再在此基础上进行分析。于是想办法解析PST文件,试过开源的几个工具,最终还是采用了通过COM方式来访问Outlook的API来处理邮件效果最理想。
基本思路是:
1、遍历mail邮件夹中的*.pst文件
2、判断是否为Outlook邮件,是则进行处理
3、加载该PST文件,遍历目录
4、遍历目录中的内容,如果是邮件则处理邮件内容
5、将邮件中的关键要素提取进行格式化存储
6、将邮件附件进行提取并存储(数据量太大最终导出部分后没有继续,其实里面有很多数据是值得分析的)
关于邮件关键要素提取,主要考虑:
1、From(Email Address、Sender Nam