恶意软件有效特征提取与选择方案
1. 恶意软件家族分类系统概述
恶意软件分类是一个重要且仍需关注的话题。当前,众多研究通过 API 函数调用序列来分析和分类恶意文件,以构建恶意行为模型。为实现这一目标,提出的系统采用了 API 特征提取程序和 n - gram 方法。
实验从病毒共享平台收集了近 25,000 个来自 6 个不同家族的恶意样本,但会基于以下条件丢弃部分样本:
1. 分析报告不包含 Virus Total(VT)标签结果;
2. 家族样本数量少于 1500 个;
3. 报告中提取的 API 特征无重复且少于 15 个。
最终,实验使用了来自 6 个恶意软件家族和干净软件的共 20,809 个样本,具体样本数量和目标标签如下表所示:
| 名称 | 样本数量 | 目标标签(类别) |
| ---- | ---- | ---- |
| 干净软件 | 5420 | 0 |
| 恶意软件 | 15389 | 1 |
| 样本总数 | 20809 | 2 (0/1) |
6 种不同类别的恶意软件样本数量如下:
| 类别 | 样本数量 |
| ---- | ---- |
| 广告软件 | 2200 |
| 后门程序 | 2076 |
| 病毒 | 1740 |
| 特洛伊木马 | 5000 |
| 蠕虫 | 2397 |
| 下载器 | 1976 |
| 总数 | 15389 |
2. 恶意软件样本分析与报告生成
本系统使用 Cuckoo Sandb
超级会员免费看
订阅专栏 解锁全文
8万+

被折叠的 条评论
为什么被折叠?



