【AI深究】深度确定性策略梯度(DDPG)全网最详细全流程详解与案例(附Python代码演示)| 原理与数学基础、完整案例流程、可视化示范 | Pendulum-v1案例代码演示 | 优缺点与工程建议

大家好,我是爱酱。继上一篇DQN详解后,本篇我们来系统介绍DDPG(Deep Deterministic Policy Gradient)——一种专为连续动作空间设计的深度强化学习算法。DDPG结合了确定性策略梯度和DQN的关键技术,广泛应用于机器人控制、自动驾驶等连续控制场景。本文将详细讲解DDPG的原理、数学公式、案例流程和完整代码,风格与上一篇DQN一致,便于新手和进阶者理解和实操。

注:本文章含大量数学算式、详细例子说明及代码演示,大量干货,建议先收藏再慢慢观看理解。新频道发展不易,你们的每个赞、收藏跟转发都是我继续分享的动力!


一、DDPG算法简介

DDPG是一种基于Actor-Critic框架的深度强化学习算法,能够直接在连续动作空间下学习最优策略。它融合了DQN的经验回放和目标网络技术,同时采用确定性策略输出连续动作,通过为动作添加噪声实现探索。

不了解DQN的同学或者想重温的伙伴可以看我之前介绍DQN的文章,传送门在此:

【AI深究】深度Q网络(DQN)全网最详细全流程详解与案例(附Python代码演示)| 原理与数学基础、案例流程(CartPole示例)| 案例代码演示 | 关键点与工程建议-优快云博客

主要特点:

  • 适用于连续动作空间

  • Actor-Critic结构:分别用策略网络(Actor)和价值网络(Critic)建模

  • 经验回放与目标网络提升训练稳定性

  • 训练时动作加噪声,增强探索能力


二、DDPG算法原理与数学公式

1. 策略与目标

DDPG采用确定性策略$\mu(s|\theta^\mu)$,直接输出动作$a$,目标是最大化累积期望回报:

J(\theta^\mu) = \mathbb{E}_{s\sim\rho^\mu}[r_1 + \gamma r_2 + \gamma^2 r_3 + \cdots]

其中$\theta^\mu$为Actor网络参数,$\rho^\mu$为策略分布。

2. Critic网络(Q函数)更新

Critic网络近似动作价值函数$Q^\mu(s,a|\theta^Q)$,目标是最小化TD误差

L(\theta^Q) = \mathbb{E}_{(s,a,r,s')\sim D}\left[(y - Q(s,a|\theta^Q))^2\right]

其中目标Q值为

y = r + \gamma Q'(s', \mu'(s'|\theta^{\mu'})|\theta^{Q'})

$Q'$$\mu'$目标网络

3. Actor网络更新

Actor目标是最大化Critic输出的Q值,采用策略梯度

\nabla_{\theta^\mu} J \approx \mathbb{E}_{s\sim D}\left[\nabla_a Q(s,a|\theta^Q)|_{a=\mu(s)} \nabla_{\theta^\mu} \mu(s|\theta^\mu)\right]

通过链式法则更新Actor参数

4. 目标网络软更新

目标网络参数采用软更新(Exponential Moving Average)

\theta' \leftarrow \tau \theta + (1-\tau)\theta'

$\tau$为软更新系数通常很小(如0.005)


三、DDPG算法案例流程(以Pendulum为例)

1. 环境说明

  • 选用Gym中的Pendulum-v1环境,目标是让摆杆尽量保持竖直动作为连续的力矩(Torque)

  • 状态空间为3维,动作空间为1维连续区间。

2. 算法流程

  1. 初始化:Actor、Critic及其目标网络参数,经验回放池Replay Buffer。

  2. 每回合(Episode)

    • 重置环境,获得初始状态$s_0$

    • 对每个时间步$t$

      1. 用Actor网络输出动作$a_t = \mu(s_t|\theta^\mu) + \mathcal{N}_t$(加噪声$\mathcal{N}_t$增强探索)。

      2. 执行动作,获得奖励$r_t$和新状态$s_{t+1}$

      3. $(s_t, a_t, r_t, s_{t+1}, done)$存入Replay Buffer

      4. 从Replay Buffer中采样一批数据,更新Critic和Actor网络参数

      5. 软更新目标网络参数。

    • 回合结束,进入下一回合。

觉得抽象的伙伴不用气馁,之后我们会用实例更简单的展示这些流程,请一定要继续看下去哦!


四、DDPG核心技术要点

  • 经验回放(Replay Buffer):打破数据相关性,提升训练稳定性。

  • 目标网络(Target Network):缓慢更新,防止训练发散。

  • 动作加噪声:通常采用Ornstein-Uhlenbeck过程或高斯噪声,增强探索能力。

  • 连续动作空间:直接输出连续动作,无需离散化。


五、DDPG完整案例流程详解(以Pendulum-v1为例)

1. 环境设置与目标

  • 环境Pendulum-v1(倒立摆),状态为3维(角度、角速度),动作为[-2, 2]区间的连续力矩。

  • 目标:让摆杆尽量保持竖直(reward最大为0,越低越负说明越差)。


2. 网络结构与智能体初始化

  • Actor网络:输入状态,输出连续动作(通过tanh映射到动作范围)。

  • Critic网络:输入状态和动作,输出该状态-动作对的Q值。

  • 目标网络:分别复制Actor和Critic,采用软更新,提升训练稳定性。

  • Replay Buffer:经验回放池,存储智能体与环境交互的(s, a, r, s', done)元组,打乱相关性。


3. 训练主流程

Step 1:初始化
  • 初始化Actor、Critic及其目标网络参数。

  • 初始化经验回放池。

Step 2:每个Episode循环
  1. 环境重置,获取初始状态$s_0$

  2. Episode内循环(每步):

    • 用Actor网络输出动作$a_t$,并加上探索噪声(如高斯噪声)以增强探索。

    • 执行动作$a_t$,获得新状态$s_{t+1}$、奖励$r_t$和done标志。

    • $(s_t, a_t, r_t, s_{t+1}, done)$存入Replay Buffer。

    • 若Replay Buffer足够大,进行以下训练步骤:

      1. 采样一批数据:随机采样batch_size组(s, a, r, s', done)。

      2. Critic更新

        • 用目标Actor和目标Critic计算目标Q值$y = r + \gamma Q'(s', \mu'(s'))$

        • 用当前Critic输出$Q(s,a)$,最小化均方误差损失$L = (y - Q(s,a))^2$

      3. Actor更新

        • 通过当前Critic,最大化$Q(s, \mu(s))$,即最小化$-\mathbb{E}[Q(s, \mu(s))]$

      4. 目标网络软更新

        • $\tau$进行指数滑动平均更新目标网络参数。

    • 若done为True,Episode结束。

Step 3:记录与可视化
  • 记录每个Episode的累计reward。

  • 训练结束后,可绘制reward曲线,或用训练好的Actor演示智能体表现。

4. DDPG代码演示(详细注释版)

注:代码采用PyTorch实现,结构清晰,便于理解和扩展。记得要先 pip install 相應的Dependency及Library喔~还有请大家复制并建议在本地运行体验喔~

import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import gym
from collections import deque
import random
import pygame
import math
import time

# --- Actor & Critic 网络 ---
class Actor(nn.Module):
    def __init__(self, state_dim, action_dim, max_action):
        super(Actor, self).__init__()
        self.fc1 = nn.Linear(state_dim, 400)
        self.fc2 = nn.Linear(400, 300)
        self.fc3 = nn.Linear(300, action_dim)
        self.max_action = max_action
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return self.max_action * torch.tanh(self.fc3(x))

class Critic(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(Critic, self).__init__()
        self.fc1 = nn.Linear(state_dim + action_dim, 400)
        self.fc2 = nn.Linear(400, 300)
        self.fc3 = nn.Linear(300, 1)
    def forward(self, x, a):
        x = torch.relu(self.fc1(torch.cat([x, a], 1)))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

class ReplayBuffer:
    def __init__(self, max_size=1000000):
        self.buffer = deque(maxlen=max_size)
    def add(self, s, a, r, s_, d):
        self.buffer.append((s, a, r, s_, d))
    def sample(self, batch_size):
        batch = random.sample(self.buffer, batch_size)
        s, a, r, s_, d = map(np.stack, zip(*batch))
        return s, a, r, s_, d
    def __len__(self):
        return len(self.buffer)

# --- PyGame 可视化 ---
L = 1.0
SCALE = 180
CENTER = (250, 250)
BG_COLOR = (255, 255, 255)
PEND_COLOR = (0, 0, 255)
BOB_COLOR = (200, 0, 0)

def draw_pendulum(screen, theta):
    screen.fill(BG_COLOR)
    x = CENTER[0] + L * SCALE * math.sin(theta)
    y = CENTER[1] + L * SCALE * math.cos(theta)
    pygame.draw.line(screen, PEND_COLOR, CENTER, (x, y), 6)
    pygame.draw.circle(screen, BOB_COLOR, (int(x), int(y)), 16)
    pygame.display.flip()

# --- DDPG参数 ---
env = gym.make('Pendulum-v1')
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.shape[0]
max_action = float(env.action_space.high[0])

actor = Actor(state_dim, action_dim, max_action)
actor_target = Actor(state_dim, action_dim, max_action)
actor_target.load_state_dict(actor.state_dict())
critic = Critic(state_dim, action_dim)
critic_target = Critic(state_dim, action_dim)
critic_target.load_state_dict(critic.state_dict())

actor_optim = optim.Adam(actor.parameters(), lr=1e-4)
critic_optim = optim.Adam(critic.parameters(), lr=1e-3)
replay_buffer = ReplayBuffer()
gamma = 0.99
tau = 0.005
batch_size = 64
exploration_noise = 0.1

def soft_update(net, net_target):
    for param, target_param in zip(net.parameters(), net_target.parameters()):
        target_param.data.copy_(tau * param.data + (1 - tau) * target_param.data)

# --- PyGame窗口初始化 ---
pygame.init()
screen = pygame.display.set_mode((500, 500))
pygame.display.set_caption("DDPG Pendulum Train & Demo (PyGame)")

rewards_history = []
for episode in range(150):
    state = env.reset()[0]
    episode_reward = 0
    for t in range(200):
        # --- PyGame实时演示 ---
        theta = np.arctan2(state[1], state[0])  # 关键:还原真实角度
        draw_pendulum(screen, theta)
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                pygame.quit()
                env.close()
                exit()
        time.sleep(0.01)  # 控制动画速度

        # --- Actor输出动作并加噪声 ---
        state_tensor = torch.FloatTensor(state).unsqueeze(0)
        action = actor(state_tensor).detach().cpu().numpy()[0]
        action = (action + np.random.normal(0, exploration_noise, size=action_dim)).clip(-max_action, max_action)
        next_state, reward, done, _, _ = env.step(action)
        replay_buffer.add(state, action, reward, next_state, float(done))
        state = next_state
        episode_reward += reward

        # --- DDPG训练 ---
        if len(replay_buffer) > batch_size:
            s, a, r, s_, d = replay_buffer.sample(batch_size)
            s = torch.FloatTensor(s)
            a = torch.FloatTensor(a)
            r = torch.FloatTensor(r).unsqueeze(1)
            s_ = torch.FloatTensor(s_)
            d = torch.FloatTensor(d).unsqueeze(1)

            # Critic更新
            with torch.no_grad():
                a_ = actor_target(s_)
                q_target = critic_target(s_, a_)
                y = r + gamma * (1 - d) * q_target
            q = critic(s, a)
            critic_loss = nn.MSELoss()(q, y)
            critic_optim.zero_grad()
            critic_loss.backward()
            critic_optim.step()

            # Actor更新
            actor_loss = -critic(s, actor(s)).mean()
            actor_optim.zero_grad()
            actor_loss.backward()
            actor_optim.step()

            # 软更新目标网络
            soft_update(actor, actor_target)
            soft_update(critic, critic_target)

        if done:
            break
    rewards_history.append(episode_reward)
    print(f"Episode {episode}, Reward: {episode_reward:.2f}")

# --- 训练结束后再演示一遍最终智能体 ---
state = env.reset()[0]
for t in range(200):
    theta = np.arctan2(state[1], state[0])
    draw_pendulum(screen, theta)
    for event in pygame.event.get():
        if event.type == pygame.QUIT:
            pygame.quit()
            env.close()
            exit()
    # 推理时不加噪声
    state_tensor = torch.FloatTensor(state).unsqueeze(0)
    action = actor(state_tensor).detach().cpu().numpy()[0]
    state, reward, done, _, _ = env.step(action)
    time.sleep(0.03)
env.close()
pygame.quit()

训练流程跟可视化过程

代码结构说明

  • 训练和可视化同步:每训练完一个episode,pygame窗口会自动刷新,展示当前智能体的控制表现。

  • 可视化原理:用pygame绘制摆杆的角度,红色圆球为摆锤,蓝色线为杆。

  • 性能建议:建议episode数量适中,否则训练太久pygame窗口会卡顿。

使用建议

  • 训练时窗口不可关闭,否则程序会提前退出。

  • 你可以根据机器性能调整episode数量和sleep时间

  • 训练结束后可用matplotlib画reward曲线,分析收敛速度和效果

结果分析

  • 大概100个Episode后就能偶尔出现非常好的表现

  • 150 Episode就会结束,这部分是可以调整的(我的经验是150通常不够令其完美)
  • 可以透过改次行代码的数字更改 Episode数目

for episode in range(150):
  • 比如改成300个Episode:
for episode in range(300):

 

到后面就会更加稳定了,基本上能一直维持在> -200 的 Reward

5. 案例流程总结

  • 初始化网络和回放池

  • 每步用Actor+噪声探索环境

  • 经验存入回放池,采样训练Critic和Actor

  • 目标网络软更新,提升稳定性

  • 记录reward,训练结束后可视化学习曲线


六、DDPG的优缺点与工程建议

优点:

  • 能直接处理连续动作空间,适用范围广

  • 训练效率高,收敛速度快

  • 经验回放与目标网络提升训练稳定性

缺点:

  • 对超参数和探索策略敏感

  • 容易出现过估计或训练不稳定

  • 对环境噪声敏感,需精心调参

工程建议:

  • 推荐采用软目标网络更新与经验回放

  • 动作探索可用高斯噪声,简单有效

  • 适合连续控制任务,如机器人、自动驾驶等


七、总结

DDPG作为连续动作空间强化学习的代表算法,极大扩展了深度强化学习的应用边界。它通过Actor-Critic结构、经验回放、目标网络等机制,实现了高效、稳定的策略学习。实际工程中建议结合可视化、超参数调优和社区实现,获得最佳效果。希望本篇内容能帮助你彻底理解DDPG的原理、流程与实操,为你的强化学习实践提供有力工具。


如需进一步案例、调参技巧或进阶算法介绍,欢迎留言交流!

如果有兴趣看更多关于强化学习(Reinforcement Learning)的内容,可以观看我之前的文章喔!传送门:

【算法解析5/5 上】强化学习(RL)深度解析:常用算法、数学目标与核心公式、与其他任务的差别 | 状态、动作、奖励、策略、环境转移概率、折扣因子 | MDP、累积奖励、策略与价值函数、贝尔曼方程-优快云博客

谢谢你看到这里,你们的每个赞、收藏跟转发都是我继续分享的动力

如需进一步案例、代码实现或与其他聚类算法对比,欢迎留言交流!我是爱酱,我们下次再见,谢谢收看!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值