阅读笔记--深度强化学习的攻防与安全性综述

本文详细综述了深度强化学习的算法,如基于值函数的DQN和基于策略梯度的A3C等,以及它们面临的对抗攻击,包括观测、奖励、动作和策略等方面的攻击。同时,介绍了多种防御方法,如对抗训练和鲁棒学习,并讨论了深度强化学习的安全性评估和未来的研究方向,如生成式对抗网络在攻击和防御中的应用。

Abstract & Introduce

​ 深度强化学习融合了深度学习的特征提取强化学习的自主决策两大优势,然而研究表明深度强化学习很容易受到对抗样本攻击。本文较为全面你的综述了深度强化学习方法、对抗攻击和防御方法、安全性分析。

​ Mnih 等人提出了第一个深度强化学习框架–深度Q网络(Deep Q network,DQN)以来,深度强化学习(Deep reinforcement learning,DRL)方法就被人们视为迈向通用人工智能的必要路径之一。

​ 基于值函数的算法:基于值函数的 算法有双重深度 Q 网络 (DDQN)[1−3]、优先经验回 放 Q 网络 (Prioritized DQN)[4]、对偶深度 Q 网络 (Dueling DQN)[5] 等,

​ 基于策略的强化学习算法:有异步/ 同步优势行动者评论者 (A3C/A2C)[6]、信任域策略 优化 (TRPO)[7]、K 因子信任域行动者评论者算法 (ACKTR)[8] 等

**攻击点:**针对强化学习算法的5个主要环节展开恶意攻击,环境、观测、奖励、动作和策略。

**防御方法:**对抗训练、鲁棒学习和对抗检测

  1. 第 1 节介绍主要的 深度强化学习算法;
  2. 第 2 节针对强化学习的 5 个方 面介绍攻击方法;
  3. 第 3 节介绍相应的防御方法;
  4. 第 4 节分析深度强化学习的安全性;
  5. 第 5 节相关应用 平台及评估指标;
  6. 最后, 总结并列举未来可能的研 究方向

第一节

马尔可夫决策过程:

​ 强化学习问题通常可以被建模为 马尔 科夫决策过程 (Markov decision process, MDP) , 可以由一个四元组MDP = (S, A, R, P)表示 , 其中S示决策过程中所能得到的状态集合, 表示决A策过程中的动作集合, R表示用于对状态转移做出的即刻奖励, P则为状态转移概率. 在任意时间步长t的开始, 智能体观察环境得到当前状态 St, 并 且根据当前的最优策略Π*做出动作At . 在t的最后, 智能体得到其奖励Rt及下一个观测状态 St+1.

1.1 深度强化学习分类

​ 第一类是基于值函数的深度强化学习,该类方法旨在利用深度神经网络逼近目标动作价值函数,倾向于原则价值最大的状态或动作。缺点:训练过程不够稳定,不能够处理动作空间连续的任务。

​ 第二类是基于策略梯度,该方法旨在将策略参数化,利用深度神经网络逼近策略沿着策略梯度的方向寻求最优策略。更稳定,缺点:比较复杂且再通过采样方式进行学习时会导致方差较大。

1.2 深度强化学习算法总览:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vL8HTsAH-1690338038845)(assets/image-20230725112039165.png)]

1.3 基于值函数的深度强化学习

​ 最初灵感来源于RL中的Q学习。Q学习旨在啊通过贝尔曼方程,采用时许差分方式进行迭代更新状态-动作价值函数Q,使得Q函数逼近至真实值Q*从而得到最优策略:

Qπ(s, a) = Eπ[Gt|St = s, At = a]

π∗ = arg max Q ∗ (s, a)

在解决一些顺序决策问题时具有较好表现但是有很多缺陷 :1)复杂场景下状态空间过大导致Q表难以维护 ;2)学习过程中训练样本的的高度连续性打破了机器学习的独立同分布要求;3)由于Q学习是一种在线学习,一些不常见的样本在使用一次后就被放弃,导致样本使用效率低。

​ 基于值函数的深度强化学习最初起源于RL中的Q学习,为了解决Q学习最主要的三大缺点,提出了深度Q网络,(1)利用深度卷积网络来逼近Q函数,解决状态空间过大导致的问题,以及特征提取的问题;(2)采用经验回放机制使训练数据成为独立同分布,降低了数据间的关联性;(3)通过复制利用提高了样本的利用率。

​ 后面的工作在深度网络的基础上针对不同的方面进行优化,

  1. 针对价值过估计的问题,提出了双重深度Q网络,训练两个网络利用目标网络来估计价值,利用评估网络选择动作。

  2. 评估准确性方面进行优化,有学者提出了对偶深度Q网络,利用状态价值函数与相应动作价值函数共同评估Q值,

  3. 为了减少隐藏信息的代价

【完全可观和部分可观介绍:原始的DQN基于完全可观这一假设,然而在现实任务中,智能体的部分可观性会导致不完整的或者含噪的状态特征。除此之外,还有许多任务必须获取历史特征来对智能体进行训练,也就是说,未来的状态不仅取决于此刻的状态,还取决于历史状态,这种场景不满足马尔可夫决策过程(Markov Decision Process,MDP)的条件,我们将这种场景称为部分可观马尔可夫决策过程。DQN在部分可观的条件下,性能会下降许多,在这样的条件下,将LSTM(长短期记忆人工神经网络)与DQN结合,发明了DRQN)框架,结果表明该方法能够有效地处理部分可观问题,即使在用全状态信息训练,部分状态信息测试的情况下,DRQN所损失的信息也明显少于DQN。】

有学者提出深度循环Q网络 ,在此基础上又有学者引入注意力机制,减少运算代价。

  1. 在简化训练难度方面,有学者提出噪声深度Q网络,在网络权重中加入参数噪声,提高了探索效率,角闪了参数设置,降低了训练难度

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值