基于辅助分类器生成对抗网络的恶意软件图像分析
1. 数据集概述
在恶意软件分析中,使用了 MalImg 和 MalExe 两个数据集。MalExe 数据集在不同指定图像大小下的样本数量和家族数量如下表所示:
| 指定图像大小 | 数量 | 家族数量 |
| ---- | ---- | ---- |
| 标准 | 24,652 | 18 |
| 32 × 32 | 24,557 | 18 |
| 64 × 64 | 24,371 | 18 |
| 128 × 128 | 23,369 | 18 |
| 512 × 512 | 9,963 | 17 |
可以看到,对于 512 × 512 图像,只有 9963 个来自 17 个类别的样本,Zeroaccess 家族没有至少 512² = 2¹⁸ 字节的样本。
同时,MalImg 数据集存在高度不平衡的问题,大部分图像属于 Allaple.A、Allaple.L 和 Yuner.A 类别。为处理这种不平衡,在训练时对数据进行洗牌,并在测试时使用平衡准确率。
另外,为了匹配生成器模型的输出,需要将像素值缩放到 [-1, 1] 范围。操作步骤如下:
1. 计算整个图像的平均像素值。
2. 从每个像素中减去这个平均值。
3. 进行归一化,使每个像素值变为 [-1, 1] 区间的浮点值。
2. AC - GAN 模型实现
AC - GAN 模型使用 Python、PyTorch 和 Keras 模块生成,包含生成器和判别器两部分。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



