Deterministic Policy Gradient (DPG) 的读后感和几个问题

这篇博客介绍了DPG(Deterministic Policy Gradient)方法在强化学习中的应用,对比了Policy Gradient (PG)和Stochastic Policy Gradient (SPG)的优缺点。DPG通过确定性策略减少了样本需求并提高了控制明确性,但面临探索问题。为了解决这个问题,文章探讨了Off-Policy Deterministic Actor-Critic (OPDAC)和Compatible Off-Policy Deterministic Actor-Critic (COPDAC)算法,其中COPDAC通过Compatible Function Approximation消除了梯度偏差。博主对算法细节和关键点提出了疑问,并鼓励读者进行讨论。

1. Policy Gradient (PG)方法的优点: 

相对于一般的 Value Based 方法(如估计Q(s,a)值), PG更加适合运用在连续的或者较大的Action Space(实际的机器人控制等等),因为随着 Action Space的增大,Q(s,a)的规模也会相对增大,对具体的实现造成很大的困难(如DQN的输出与Action的个数有关)。而对PG来说这种问题的影响就小多了。

2. Stochastic Policy Gradient (SPG)

SPG的Performance Objective为:

即为按照Policy \pi 运行得到的action value的期望值,目标为改变Policy使Performance Objective尽可能大,可以使用梯度上升方法寻找局部最大值,其梯度如下:

原文(Sliver的“”Deterministic Policy Gradient Algorithms“”)指出的

个人理解是因为对于某一个state输出的是所有action的概率,故他说是over state and action space。从而引出了DPG的优点,DPG最终得到的Policy为,它是某一个state到某一个action的映射而不是所有action概率的映射,故训练Deterministic Policy(DP)较Stochastic Policy(SP) 需要的样本量少,且更加明确,在控制中即包含了较少的噪声(因为其输出的是某一个确定的值而不是一个概率)。

3. Deterministic Policy Gradient (DPG)

上部分说了DP较SP的优点(需要较少的样本,得出的Policy更加明确),然而使用DP也会带来问题

如何保证exploration:

论文使用off-policy deterministic actor-critic (OPDAC)方法,利用stochastic behavior policy 来产生训练数据从而达到增强exploration的目的。这样一来又引出了许多问题:

1)actor的问题:

对于那些基于表格的(一般来说state,action space较小的)的问题,一般使用GPI的方式,即先估计Q(s,a)的值,再根据估计的Q值来提升Policy,提升的方法一般是argmax操作:

### 回答1: Deep Deterministic Policy Gradient(DDPG)是一种基于深度神经网络的强化学习算法。它是用来解决连续控制问题的,即输出动作的取值是连续的。DDPG是在DPGDeterministic Policy Gradient)的基础上进行改进得到的,DPG是一种在连续动作空间中的直接求导策略梯度的方法。DDPGDPG都属于策略梯度算法的一种,与其他策略梯度算法(如REINFORCE)的不同之处在于,DPGDDPG都是基于偏微分方程的直接求导,而不是蒙特卡罗方法进行计算。DDPG使用一个确定策略来生成动作,但同时使用一个噪声过程来扰动输出的动作,以产生更多的状态动作样本。这样一来,DDPG就具有了良好的探索能力,使得它在解决复杂的连续动作问题时能取得较好的效果。 ### 回答2: 深度确定策略梯度(Deep Deterministic Policy Gradient,DDPG)是一种用于解决深度强化学习问题的方法。 DDPG是基于确定策略梯度Deterministic Policy GradientDPG)的算法,可以在连续动作空间下进行强化学习。与传统的策略梯度方法不同,DDPG直接学习确定策略,在给定状态下选择最优的动作。 DDPG主要由两个网络组成:一个是Actor网络,用于学习确定策略;另一个是Critic网络,用于估计状态-动作对的Q值。Actor网络根据当前状态选择动作,Critic网络根据当前状态动作的组合估计其对应的Q值。通过不断地交互环境、收集数据更新网络参数,DDPG算法逐渐优化确定策略Q值估计,以使得智能体在环境中获得更高的累积奖励。 DDPG算法的核心思想是通过使用Experience Replay目标网络来提高学习的稳定性收敛性。Experience Replay将智能体与环境的交互经验存储在一个经验回放缓冲区中,然后从中随机采样进行训练;目标网络通过延迟更新目标网络的方式,减小训练中的目标值变动,从而提高算法的稳定性。 DDPG算法在解决连续控制任务中表现出良好的性能收敛性,可以应用于机器人控制、无人驾驶、金融交易等复杂任务中。然而,DDPG算法也存在一些挑战问题,如对超参数的敏感性、样本效率较低等,这些问题是DDPG算法持续改进的方向之一。 ### 回答3: Deep Deterministic Policy Gradient(DDPG)是一种用于连续动作空间的深度强化学习算法。它结合了深度神经网络确定策略梯度的优势,可以应用于诸如机器人控制金融投资等领域。 DDPG算法的核心思想是通过在连续动作空间中学习一个行动者-评论家系统。行动者使用确定策略,即给定状态输出一个具体的动作,而评论家则评估行动者的动作质量。这两个网络都是用深度神经网络来表示,并通过梯度下降来进行优化。 在训练过程中,DDPG使用了经验回放缓冲区来存储之前的转换并随机采样进行训练。这样做可以解决样本相关性非稳定性问题。同时,为了保持算法的探索性,DDPG采用了一个目标网络,用于与主网络进行定期的软更新。 DDPG的优点在于能够处理连续动作空间,通过近似价值函数策略函数,对高维、非线性状态空间进行建模。此外,DDPG还有很好的收敛性稳定性,可以在复杂任务中取得较好性能。 然而,DDPG也存在一些挑战。由于使用了神经网络近似值函数,对网络结构的选择超参数的调整都非常重要。此外,训练过程中可能会出现训练不稳定的问题,需要进行合适的技巧调整。 总结来说,DDPG是一种深度强化学习算法,适用于连续动作空间的问题。通过结合确定策略梯度深度神经网络的优势,DDPG能够解决高维、非线性状态空间的问题,并在复杂任务中取得好的性能。然而,对网络结构超参数的选择需要仔细调整,且训练过程中可能存在稳定性问题
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值