深入解析Spinning Up中的Soft Actor-Critic算法

李梅为

于 2025-06-03 09:13:01 发布

阅读量240

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00606/article/details/148394406

深入解析Spinning Up中的Soft Actor-Critic算法

spinningup openai/spinningup: 是一个基于 Python 的强化学习教程和项目，可以方便地实现强化学习算法的实现和测试。该项目提供了一个简单易用的强化学习教程和项目，可以方便地实现强化学习算法的实现和测试，同时支持多种机器学习库和开发工具。项目地址: https://gitcode.com/gh_mirrors/sp/spinningup

算法概述

Soft Actor-Critic（SAC）是OpenAI的Spinning Up项目中实现的一种基于最大熵强化学习框架的深度强化学习算法。它属于actor-critic类算法，特别适合处理连续动作空间的强化学习问题。

SAC的核心创新点在于将熵正则化引入到强化学习的目标函数中，使算法在追求良好表现的同时，也鼓励策略保持一定的随机性。这种设计带来了几个显著优势：

自动平衡探索与利用
防止策略过早收敛到次优解
对超参数更加鲁棒

核心概念解析

熵正则化强化学习

在传统强化学习中，我们优化的目标是最大化累积回报：

$$ \pi^* = \arg \max_{\pi} \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^{\infty} \gamma^t R(s_t, a_t, s_{t+1}) \right] $$

而在熵正则化强化学习中，目标函数被修改为：

$$ \pi^* = \arg \max_{\pi} \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^{\infty} \gamma^t \left( R(s_t, a_t, s_{t+1}) + \alpha H(\pi(\cdot|s_t)) \right) \right] $$

其中：

$H(\pi(\cdot|s_t))$ 是策略在状态$s_t$下的熵
$\alpha > 0$ 是温度系数，控制熵项的重要性

价值函数定义

在熵正则化框架下，价值函数的定义也有所变化：

状态价值函数$V^\pi(s)$：

$$ V^\pi(s) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^{\infty} \gamma^t \left( R(s_t, a_t, s_{t+1}) + \alpha H(\pi(\cdot|s_t)) \right) \bigg| s_0 = s \right] $$

动作价值函数$Q^\pi(s,a)$：

$$ Q^\pi(s,a) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^{\infty} \gamma^t R(s_t, a_t, s_{t+1}) + \alpha \sum_{t=1}^{\infty} \gamma^t H(\pi(\cdot|s_t)) \bigg| s_0 = s, a_0 = a \right] $$

SAC算法细节

网络架构

SAC同时学习以下组件：

两个Q函数网络 $Q_{\phi_1}, Q_{\phi_2}$（用于缓解价值高估问题）
一个策略网络 $\pi_\theta$

Q函数学习

Q函数的损失函数采用MSBE（Mean Squared Bellman Error）最小化：

$$ L(\phi_i, \mathcal{D}) = \mathbb{E}{(s,a,r,s',d) \sim \mathcal{D}} \left[ \left( Q{\phi_i}(s,a) - y(r,s',d) \right)^2 \right] $$

其中目标值$y(r,s',d)$计算如下：

$$ y(r, s', d) = r + \gamma (1 - d) \left( \min_{j=1,2} Q_{\phi_{\text{targ},j}}(s', \tilde{a}') - \alpha \log \pi_{\theta}(\tilde{a}'|s') \right) $$

这里使用了几个关键技巧：

双Q网络取最小（clipped double-Q trick）
目标网络（target network）
从当前策略采样下一动作（而非目标策略）

策略学习

策略优化的目标是最大化：

$$ \mathbb{E}{s \sim \mathcal{D}} \left[ \mathbb{E}{a \sim \pi_\theta} \left[ \min_{j=1,2} Q_{\phi_j}(s,a) - \alpha \log \pi_\theta(a|s) \right] \right] $$

实现时使用了重参数化技巧（reparameterization trick）来降低方差：

$$ \tilde{a}\theta(s, \xi) = \tanh\left( \mu\theta(s) + \sigma_\theta(s) \odot \xi \right), \quad \xi \sim \mathcal{N}(0, I) $$