元数据挖掘与攻击流量检测技术解析
1. 元数据挖掘相关内容
1.1 文件类型分析
对不同存储库中的文件类型进行了分析,具体数据如下表所示:
| 存储库 | 类型 1 | 类型 2 | 数量 | 包含类型 1 | 包含类型 2 |
| — | — | — | — | — | — |
| CDIAC | keyword | tabular | 12878 | 10966 | 12415 |
| | jsonxml | - | 3282 | 1954 | 3109 |
| | netcdf | - | 252 | 205 | 252 |
| | c - code | - | 8 | 8 | 3 |
| | python | - | 3 | 3 | 3 |
| | tabular python | - | 7 | 7 | 7 |
| CORD | jsonxml | keyword | 517900 | 517900 | 517900 |
1.2 Libmagic 工具对比
将某种方法与 Libmagic FTI 工具进行对比。由于 Libmagic 类型不能直接映射到提取器库,所以手动将 Libmagic 输出映射到对应类型。部分映射很明显,如 empty:empty、compress’d:compressed;有些则需要参考 Libmagic 文档,如 data:unknown。对比结果显示,Libmagic 表现明显不如该方法,它经常错误分类表格和关键字数据。在有利的实验中,Libmagic 也只能准确识别 65%的文件,而该方法能正确识别 88%的文件。
超级会员免费看
订阅专栏 解锁全文
1001

被折叠的 条评论
为什么被折叠?



