强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

原创

已于 2022-04-13 16:32:53 修改 · 1.5w 阅读

82 ·

CC 4.0 BY-SA版权

文章标签：

#python #算法 #强化学习 #人工智能

于 2022-04-12 23:42:17 首次发布

本文介绍了强化学习中离散和连续动作空间的处理，重点讲解了确定策略梯度（DPG）和随机策略网络在连续控制任务中的应用。对于确定策略梯度，详细阐述了其推导过程和使用Target网络的改进；而对于随机策略网络，讨论了多维度连续动作空间的策略表示，并提到了策略梯度算法如reinforce和Actor-Critic。文章强调了在实际应用中，策略网络和价值网络的优化策略及其在解决维度灾难问题上的角色。

1. 动作空间

1.1 离散动作空间

比如: ${left,right,up\}$
DQN可以用于离散的动作空间（策略网络）

1.2 连续动作空间

比如： $A=[0^{\circ} ，180^{\circ} ]*[0^{\circ} ,360^{\circ} ]$
连续动作空间的两种处理方式：

离散化（discretization）：比如机械臂进行二维网格划分。假设d为连续动作空间的自由度，动作离散化后的数量会随着d的增加呈现指数增长，从而造成维度灾难。
使用确定策略梯度。
使用随机策略梯度。

2. 确定策略梯度做连续控制

在这里插入图片描述

动作空间为 $R^d$ 的一个子集

2.1 确定策略梯度推导

确定策略网络： $\pi(s;\theta)$
价值网络(输出为一个标量)： $q (s, a; W)$
网络学习过程为：

观测到一个transition： $s_t,a_t,r_t,s_{t+1})$
计算t时刻价值网络的函数值: $q_t = q(s_t,a_t;W)$
计算t+1时刻价值网络的函数值： $a_{t+1}^-=\pi(s_{t+1};\theta)\\q_{t+1}=q(s_{t+1},a_{t+1}^-;W)$
TD Error为： $\delta_t=q_t-(r_t+\gamma\cdot q_{t+1})$
更新价值网络： $W\gets W-\alpha\cdot\frac{\partial q(s_t,a_t;W)}{\partial W}$
更新策略网络所需的策略梯度推导： $策略网络的目标为通过策略网络a=\pi(s;\theta)\\做出的决策可以增加价值网络q=q(s,a;W)的值。\\ 因此确定策略梯度（deterministic policy gradient， DPG）为：\\ g=\frac{\partial q(s,\pi(s;\theta);W)}{\partial \theta}=\frac{\partial q(s.\pi(s;\theta);W)}{\partial \pi(s;\theta)}\cdot \frac{\partial \pi(s;\theta)}{\partial \theta}$
依据确定策略梯度进行策略网络参数更新： $g=\frac{\partial q(s,\pi(s;\theta);W)}{\partial \theta}=\frac{\partial q(s.\pi(s;\theta);W)}{\partial \pi(s;\theta)}\cdot \frac{\partial \pi(s;\theta)}{\partial \theta}\\ \theta\gets \theta+\beta\cdot g$