对抗性恶意软件与强化学习:实验与研究进展
1. 实验设置与初步结果
在评估的最后阶段,为了验证实际性能,选取了三种设置下的最佳代理。具体操作是对测试集中除误分类样本之外的所有样本进行修改,然后将其展示给商用杀毒软件(AV)。使用的DQN代理参数如下:M - 1设置中γ = 0.5且lr = 0.001;M - 2设置中γ = 0.75且lr = 0.01;M - 3设置中γ = 0.75且lr = 0.001。实验结果如下表所示:
| AV - 1 | AV - 2 | AV - 3 | AV - 4 | AV - 5 | AV - 6 | AV - 7 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| M - 1 | 2.76 | 1.8 | 5.54 | 1.47 | 4.87 | 1.47 | 8.06 |
| M - 2 | 6.12 | 31.69 | 26.52 | 13.03 | 16.94 | 47.09 | 17.67 |
| M - 3 | 3.74 | 14.68 | 3.01 | 1.13 | 4.61 | 31.79 | 2.03 |
从表中可以看出,总体最佳设置是M - 2设置中的DQN代理(γ = 0.75,lr = 0.01)。这一结果出乎意料,因为在针对原始目标分类器(MalConv)进行测试时,该配置的逃避率(如表5所示)在大多数情况下低于针对实际AV的逃避率。
2. 对抗性良性样本实验
在第二个实验中,进行了带有插入类别的探索性完整性攻击,即将良性文件进行修改,误导目标分类器将其错误地预测为恶意软件。这与大多数
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



