10、强化学习在安卓恶意软件检测中的应用与评估

强化学习在安卓恶意软件检测中的应用与评估

1. 引言

随着安卓系统的广泛使用,其安全问题日益受到关注。恶意软件的不断演变给传统的检测方法带来了挑战。本文介绍了一种新颖的 RL - MAGE 框架,旨在提高安卓恶意软件检测的性能和鲁棒性。该框架包括强化学习的恶意软件逃避攻击(MEA)和 ARShield 防御策略。

2. 方法介绍

2.1 MEA 算法

  • TRPO - MEA :使用信任区域策略优化(TRPO)算法,在更新策略时引入 KL 散度约束,类似于概率分布之间的距离度量。
  • PPO - MEA :借鉴了 A2C 的多工作者思想和 TRPO 的信任区域思想,使用裁剪方法防止策略的大幅更新。

2.2 ARShield 防御策略

该防御策略基于对抗性再训练,旨在开发更能抵御恶意软件逃避攻击的恶意软件检测器。具体步骤如下:
1. MEA 代理修改恶意软件应用程序,迫使恶意软件检测器误分类。
2. 当发生误分类时,将环境的最终状态转换回特征向量(格式与训练恶意软件分类器的原始数据集相同)并保存。
3. 构建新的数据集,包含用于训练基线模型的原始数据集及其原始标签,以及标签设置为恶意软件的新对抗样本。
4. 使用新的对抗数据集重新训练所有恶意软件检测器,得到更鲁棒的 ARShield 模型。

3. 实验设置

3.1 数据集

  • 从 Google Play 商店下载 5721 个
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值