【深度强化学习 DRL 快速实践】深度确定性策略梯度算法 (DDPG)

CODE_RabbitV

已于 2025-04-26 15:40:37 修改

阅读量1k

点赞数 27

CC 4.0 BY-SA版权

分类专栏： DRL 文章标签：算法

于 2025-04-25 12:53:56 首次发布

本文链接：https://blog.youkuaiyun.com/CODE_RabbitV/article/details/147503960

DRL 专栏收录该内容

8 篇文章

订阅专栏

在这里插入图片描述

DDPG（2016，DeepMind）核心改进点

深度确定性策略梯度算法 (DDPG): 通过融合 DQN+PG 优势，解决连续动作空间下的确定性策略问题

model-free, off policy, actor-critic, deterministic 策略

核心改进点	说明
策略梯度优化 (继承 PG)	通过Actor网络直接优化策略，适应连续动作问题
延迟目标网络 (继承 DQN)	避免Q值的估计震荡，提高算法的训练稳定性: $\theta^{Q'} \leftarrow \tau \theta^Q + (1 - \tau) \theta^{Q'}, \theta^{\mu'} \leftarrow \tau \theta^\mu + (1 - \tau) \theta^{\mu'}$
经验回放机制 (继承 DQN)	训练时从存储的 (s, a, r, s’) 中随机采样，减少数据相关性和样本浪费

DDPG 网络更新

Critic 网络更新: $\theta^Q$

Critic 网络的目标是最小化与 $Q^\text{target}$ 的差距

$L(\theta^Q) = \frac{1}{N} \sum \left [ Q(s, \mu(s)) - Q^\text{target} \right ]^2, \text{where} \ Q^\text{target} = r + \gamma Q'(s', \mu'(s'))$

Actor 网络更新: $\theta^\mu$

Actor 网络的目标是最大化 Critic 网络估计的 Q 值：

$J(\theta^\mu) = \frac{1}{N} \sum Q(s, \mu(s))$

【深入思考】这里其实不是直接优化策略，还是基于值来决定策略的【本质上 value-based】

基于 stable_baselines3 的快速代码示例

注意：训练时添加动作噪声很重要！因为 DDPG 是确定性策略（deterministic policy）无法主动探索

import gymnasium as gym
import numpy as np
from stable_baselines3 import DDPG
from stable_baselines3.common.noise import NormalActionNoise

# 创建环境
env = gym.make("Pendulum-v1")
env.reset(seed=0)

# 动作噪声: 重要 ！！！ 因为 DDPG 是确定性策略（deterministic policy）无法主动探索
n_actions = env.action_space.shape[-1]
action_noise = NormalActionNoise(mean=np.zeros(n_actions), sigma=0.1 * np.ones(n_actions))

# 初始化模型 -- DDPG --
model = DDPG("MlpPolicy", env, action_noise=action_noise, verbose=1)

# 训练
model.learn(total_timesteps=100_000)
model.save("ddpg_pendulum_v1")

# 测试
obs, _ = env.reset()
total_reward = 0
for _ in range(200):
    action, _ = model.predict(obs, deterministic=True)  ## 测试时才设置为确定性策略：deterministic=True 
    obs, reward, terminated, truncated, _ = env.step(action)
    total_reward += reward
    if terminated or truncated:
        break

print("Test total reward:", total_reward)