【强化学习】SPG DPG DDPG（DPG3）

策略梯度算法详解：从PolicyGradient到DPG与DDPG

最新推荐文章于 2024-08-22 21:48:47 发布

原创最新推荐文章于 2024-08-22 21:48:47 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习

DPG 专栏收录该内容

3 篇文章

订阅专栏

本文深入解析了PolicyGradient、Stochastic Policy Gradient (SPG)、Deterministic Policy Gradient (DPG)和Deep Deterministic Policy Gradient (DDPG)等强化学习中的关键算法，通过数学公式阐述其工作原理和应用，适合理解策略优化在AI决策中的作用。

数学公式警告

Policy Gradient

$\begin{aligned}J(\pi_\theta)=&\int_S \rho^\pi(s)\int_A \pi_\theta (s,a)r(s,a)dads\\=&E_{s\sim \rho^\pi ,a\sim \pi_\theta}[r(s,a)]\end{aligned}$

$ρπ(s′)=∫S∑t=1∞γt−1p1(s)p(s→s′,t,π)ds\rho^\pi(s') = \int_S \sum_{t=1}^ {\infty} \gamma^{t-1}p_1(s)p(s\to s',t,\pi)ds$

其中 $p_1(s)$ 表示初始状态为s的概率

$p(s−>s′,t,π)p(s->s',t,\pi)$ 表示在策略 $π\pi$ 下状态s经过t时间到达s’

SPG

stochastic policy gradient

随机指随即策略 $πθ(a∣s)=P[a∣s,;θ]\pi_\theta(a|s)=P[a|s,;\theta]$ ，
$\begin{aligned} \nabla_\theta J(\pi_\theta)=&\int_S \rho^\pi(s)\int_A \nabla_\theta \pi_\theta (s,a)Q^\pi(s,a)dads\\=&E_{s\sim \rho^\pi ,a\sim \pi_\theta}[\nabla_\theta log \pi_\theta(s,a)Q^\pi(s,a)]\end{aligned}$

DPG

deterministic policy gradient

得出的Policy对于一个state的action是确定的
$\begin{aligned}J(\mu_\theta)=&\int_S \rho^\mu(s) r(s,\mu_\theta(s))ds\\=&E_{s\sim \rho^\mu}[r(s,\mu_\theta(s))]\end{aligned}$

$\begin{aligned}\nabla_\theta J(\mu_\theta)=&\int_S \rho^\mu(s) \nabla_\theta \mu_\theta (s) \nabla_a Q^\mu(s,a)|_{a=\mu_\theta(s)}ds\\=&E_{s\sim \rho^\mu}[\nabla_\theta \mu_\theta(s) \nabla_a Q^\mu(s,a)|_{a=\mu_\theta(s)}]\end{aligned}$