Soft Actor-Critic算法代码精解

QUST-Learn3D

已于 2025-01-22 16:47:05 修改

阅读量375

点赞数 7

分类专栏：强化学习 pytorch 文章标签：算法 python pytorch

于 2025-01-22 14:08:05 首次发布

本文链接：https://blog.youkuaiyun.com/xmyzqs1212/article/details/145302458

版权

Soft Actor-Critic (SAC)是面向最大熵强化学习Maximum Entropy Reinforcement learning 开发的一种off policy算法。

对于一般的DRL，学习目标很直接，就是学习一个policy使得累加的reward期望值最大；

$\pi^*=\arg\max_\pi\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[\sum_tR(s_t,a_t)]$ （1）

而最大熵强化学习，除了上面的基本目标，还要求policy的每一次输出的action 熵entropy最大：

$\pi^{*}=\operatorname{a r g} \operatorname* {m a x}_{\pi} \mathbb{E}_{( s_{t}, a_{t} ) \sim\rho_{\pi}} [ \sum_{t} \underbrace{R ( s_{t}, a_{t} )}_{r e w a r d}+\alpha\underbrace{H ( \pi( \cdot| s_{t} ) )}_{e n t r o p y} ]$ （2）

其目的是让策略随机化，即输出的每一个action的概率尽可能分散，而不是集中在一个action上。最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action，有用的trajectory。

Soft Policy Evaluation

$q_\pi(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}\mathcal{P}_{ss^{\prime}}^a\sum_{a^{\prime}\in\mathcal{A}}\pi\left(a^{\prime}\mid s^{\prime}\right)\left(q_\pi\left(s^{\prime},a^{\prime}\right)-\alpha\log(\pi\left(a^{\prime}\mid s^{\prime}\right))\right.$

经验池的作用

经验池 存在的意义是为了消除experience的相关性，因为强化学习中前后动作通常是强相关的，而将它们打散，放入经验池中，然后在训练神经网络时，随机地从经验池中选出一批experience，这样能够使神经网络训练地更好。

SAC算法相关的Loss函数

SAC算法相关的Loss函数主要有以下几种：

策略网络的Loss

策略损失函数：策略网络的目标是最大化期望奖励与熵项之和，通常采用负的对数似然乘以优势函数来近似策略梯度，其损失函数公式为：

$L_{\pi} ( \theta)=\mathbb{E}_{s \sim\rho^{\pi}, a \sim\pi_{\theta}} \left[-r ( s, a )-\alpha\operatorname{l o g} \pi_{\theta} ( a \mid s )+Q_{\phi} ( s, a ) \right]$

其中 $\theta$ 是策略网络 $\pi_{_\theta}$ 的参数， $\rho^{\pi}$ 是由策略 $\pi_{_\theta}$ 诱导的状态分布， $s$ 是状态， $a$ 是动作， $\alpha$ 是温度函数，用于调节熵的重要性。下面说明各项计算方法，一般先从经验池中选出多组 $\left ( s,a,r,s{}' \right )$ 的组合（共batch size项）