强化学习在安卓恶意软件检测中的应用与评估
1. 引言
随着安卓系统的广泛使用,其安全问题日益受到关注。恶意软件的不断演变给传统的检测方法带来了挑战。本文介绍了一种新颖的 RL - MAGE 框架,旨在提高安卓恶意软件检测的性能和鲁棒性。该框架包括强化学习的恶意软件逃避攻击(MEA)和 ARShield 防御策略。
2. 方法介绍
2.1 MEA 算法
- TRPO - MEA :使用信任区域策略优化(TRPO)算法,在更新策略时引入 KL 散度约束,类似于概率分布之间的距离度量。
- PPO - MEA :借鉴了 A2C 的多工作者思想和 TRPO 的信任区域思想,使用裁剪方法防止策略的大幅更新。
2.2 ARShield 防御策略
该防御策略基于对抗性再训练,旨在开发更能抵御恶意软件逃避攻击的恶意软件检测器。具体步骤如下:
1. MEA 代理修改恶意软件应用程序,迫使恶意软件检测器误分类。
2. 当发生误分类时,将环境的最终状态转换回特征向量(格式与训练恶意软件分类器的原始数据集相同)并保存。
3. 构建新的数据集,包含用于训练基线模型的原始数据集及其原始标签,以及标签设置为恶意软件的新对抗样本。
4. 使用新的对抗数据集重新训练所有恶意软件检测器,得到更鲁棒的 ARShield 模型。
3. 实验设置
3.1 数据集
- 从 Google Play 商店下载 5721 个
超级会员免费看
订阅专栏 解锁全文
3351

被折叠的 条评论
为什么被折叠?



