18、深度确定性策略梯度（DDPG）代码实现详解

lstm7chronicler

于 2025-08-02 01:23:27 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习：从理论到实践文章标签： DDPG 深度确定性策略梯度强化学习

本文链接：https://blog.youkuaiyun.com/lstm7chronicler/article/details/149846482

深度强化学习：从理论到实践专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度确定性策略梯度（DDPG）代码实现详解

1. 引入DDPG的原因

在处理连续动作控制任务时，采用深度确定性策略梯度（DDPG）算法有诸多好处。首先，它有助于直观地理解相关概念，并且能与之前涉及的理论、数学知识以及研究进展相联系。其次，从编码难度来看，DDPG与Actor - Critic方法较为相似，为避免重复低层次的实现，我们借此机会展示一些更实用的方法。再者，DDPG能让代码变得非常简洁，相较于之前的A3C代码，其长度明显缩短，使我们能够更专注于应用层面。

2. 山车连续环境（Mountain Car Continuous）

在连续动作控制任务中，我们首次使用连续动作控制，因此不能再使用自定义的“Grid World”或Gym的“Cart Pole”环境，因为它们都属于离散动作控制场景。这里我们选择了Gym的“Mountain Car Continuous”环境，该环境的挑战是驾驶一辆汽车爬上陡峭的山坡并触碰旗帜。

由于汽车发动机动力不足，无法从静止状态直接爬上陡坡。所以，需要先让汽车倒车爬坡以获得足够的动量，然后在下山时利用该动量冲上下一个山坡。连续动作控制主要是对汽车油门的控制，负值表示倒车，正值表示前进，油门的绝对值表示发动机功率。到达目标的奖励为 +100，而惩罚是从起点到目标的动作平方和。

3. 项目结构与依赖

环境：使用Python 3.6.5的“DRL”环境。
依赖库 ：除了常见的Gym、NumPy和Keras库外，还需要“keras - rl”库，可通过“pip install keras - rl”进行安装，该库依赖于Keras。

由于这是一个非常简化且高度抽象的实现，大部分细节都隐藏在“keras - rl”库中，我们将代码实现放在一个名为“ddpg_continuous_action.py”的文件中。该文件中的DDPG使用Keras深度学习包装器为TensorFlow创建用于actor和critic的模块化深度学习模型。actor以线性激活层结束，神经元数量与动作数量相同；critic只有一个线性激活的神经元，用于输出基线值。actor和critic的隐藏层数量以及每个隐藏层的神经元数量都可以自定义，并且可以使用不同的配置对代理进行测试。其余代码非常简单，直接调用包装器底层的DDPG实现。

项目结构如下：
| 项目元素 | 说明 |
| ---- | ---- |
| 环境 | Python 3.6.5的“DRL”环境 |
| 依赖库 | Gym、NumPy、Keras、keras - rl |
| 代码文件 | ddpg_continuous_action.py |
| 模型 | actor、critic、agent |

训练函数调用时，会检查actor、critic和代理模型是否存在。若不存在，则创建新实例；若存在，则尝试定位现有的模型权重以继续训练，否则开始全新训练。在训练和测试过程中，将可视化标志设置为True，会弹出一个窗口，实时显示代理在环境中的运行情况。

graph LR
    A[开始训练] --> B{模型是否存在}
    B -- 是 --> C{是否有现有权重}
    C -- 是 --> D[继续训练]
    C -- 否 --> E[全新训练]
    B -- 否 --> E
    D --> F[训练中]
    E --> F
    F --> G{可视化标志是否为True}
    G -- 是 --> H[显示实时运行窗口]
    G -- 否 --> I[不显示窗口]
    H --> J[训练结束]
    I --> J

4. 代码实现

代码主要在“ddpg_continuous_action.py”文件中实现，以下是对代码关键部分的简要说明：
- DDPG模型创建 ：使用Keras为actor和critic创建模型。

# 示例代码，实际可能有不同的参数和结构
import keras
from keras.layers import Dense

# 创建actor模型
actor = keras.Sequential([
    Dense(64, activation='relu', input_shape=(state_shape,)),
    Dense(64, activation='relu'),
    Dense(action_shape, activation='linear')
])

# 创建critic模型
critic = keras.Sequential([
    Dense(64, activation='relu', input_shape=(state_shape + action_shape,)),
    Dense(64, activation='relu'),
    Dense(1, activation='linear')
])

训练函数 ：检查模型和权重，决定训练方式。

def train():
    if actor and critic and agent:
        try:
            # 尝试加载现有权重
            actor.load_weights('actor_weights.h5')
            critic.load_weights('critic_weights.h5')
            print("加载现有权重，继续训练")
        except:
            print("未找到现有权重，开始全新训练")
    else:
        print("创建新的模型实例，开始全新训练")
    # 后续训练代码...

5. 代理在“MountainCarContinuous - v0”环境中的表现

通过设置可视化标志为True，我们可以看到代理在“MountainCarContinuous - v0”环境中的实时表现。代理会根据训练得到的策略控制汽车的油门，尝试爬上陡坡并触碰旗帜。在训练过程中，代理会不断学习和优化策略，以提高到达目标的成功率。

以下是一些可能影响代理表现的因素：
- 模型结构 ：actor和critic的隐藏层数量和神经元数量会影响模型的学习能力。
- 训练参数 ：如学习率、折扣因子等，会影响训练的速度和效果。
- 环境复杂度 ：山车连续环境的坡度、汽车动力等因素会增加任务的难度。

通过不断调整这些因素，我们可以优化代理的表现，使其在环境中取得更好的成绩。

6. 影响DDPG性能的关键因素分析

在使用DDPG算法解决山车连续环境问题时，有多个关键因素会显著影响其性能。下面我们详细分析这些因素，并探讨如何进行优化。

6.1 模型结构

隐藏层数量 ：在actor和critic模型中，隐藏层数量的选择至关重要。隐藏层数量过少，模型可能无法学习到复杂的环境特征和策略，导致性能不佳；而隐藏层数量过多，可能会增加过拟合的风险，同时也会增加训练时间和计算资源的消耗。一般来说，可以通过实验不同的隐藏层数量，观察代理在环境中的表现来确定最优值。
神经元数量 ：每个隐藏层中的神经元数量也会影响模型的学习能力。较多的神经元可以让模型学习到更复杂的函数映射，但同样可能导致过拟合；较少的神经元则可能无法捕捉到足够的信息。可以采用网格搜索等方法，在一定范围内尝试不同的神经元数量组合，找到最适合当前任务的配置。

6.2 训练参数

学习率 ：学习率控制着模型参数更新的步长。如果学习率过大，模型可能会在训练过程中跳过最优解，导致无法收敛；如果学习率过小，训练速度会变得非常缓慢。通常可以先选择一个适中的学习率，然后根据训练过程中的损失函数变化情况进行调整。例如，如果损失函数在训练初期下降缓慢，可以适当增大学习率；如果损失函数出现震荡或发散的情况，则需要减小学习率。
折扣因子 ：折扣因子决定了未来奖励的重要程度。较大的折扣因子会更看重未来的奖励，使代理更倾向于采取长期收益较高的策略；较小的折扣因子则更关注即时奖励。在山车连续环境中，由于需要通过倒车获得动量来爬上陡坡，适当增大折扣因子可以让代理更好地学习到这种长期策略。

6.3 环境复杂度

坡度：山车连续环境的坡度直接影响了任务的难度。较陡的坡度会增加汽车爬上坡的难度，需要代理学习更复杂的策略来获得足够的动量。在训练过程中，可以逐渐增加坡度，让代理逐步适应更复杂的环境。
汽车动力 ：汽车发动机的动力不足是该环境的一个挑战。不同的动力设置会改变代理的策略选择。可以通过调整汽车动力参数，观察代理的表现，找到一个合适的动力范围，使任务既具有挑战性又能让代理有学习和优化的空间。

7. 优化DDPG性能的策略

基于上述关键因素的分析，我们可以采取以下策略来优化DDPG的性能。

7.1 模型结构优化

尝试不同的架构 ：除了简单的全连接网络，还可以尝试使用卷积神经网络（CNN）或循环神经网络（RNN）等更复杂的架构，特别是在处理具有空间或时间特征的环境时。例如，如果环境中有图像信息，可以使用CNN来提取特征；如果任务具有序列性，可以使用RNN来处理。
正则化方法 ：为了防止过拟合，可以在模型中添加正则化项，如L1或L2正则化。正则化可以约束模型的参数，使其更加平滑，提高模型的泛化能力。

from keras.regularizers import l2

# 在Dense层中添加L2正则化
actor = keras.Sequential([
    Dense(64, activation='relu', input_shape=(state_shape,), kernel_regularizer=l2(0.01)),
    Dense(64, activation='relu', kernel_regularizer=l2(0.01)),
    Dense(action_shape, activation='linear')
])

7.2 训练参数调整

自适应学习率 ：可以使用自适应学习率算法，如Adagrad、Adadelta或Adam等。这些算法会根据参数的梯度变化情况自动调整学习率，使训练更加稳定和高效。

from keras.optimizers import Adam

# 使用Adam优化器
optimizer = Adam(lr=0.001)
actor.compile(optimizer=optimizer, loss='mse')

动态折扣因子 ：在训练过程中，可以动态调整折扣因子。例如，在训练初期，使用较小的折扣因子让代理快速学习到即时奖励的策略；随着训练的进行，逐渐增大折扣因子，让代理关注长期奖励。

7.3 环境探索与利用

探索策略 ：在训练初期，代理需要更多地进行探索，以发现环境中的不同状态和可能的策略。可以使用epsilon - greedy策略或高斯噪声策略等进行探索。例如，在epsilon - greedy策略中，以一定的概率（epsilon）随机选择动作，而不是根据当前的最优策略选择动作。

import numpy as np

epsilon = 0.1
if np.random.rand() < epsilon:
    action = np.random.rand(action_shape)  # 随机选择动作
else:
    action = actor.predict(state)  # 根据策略选择动作

经验回放 ：经验回放可以提高数据的利用率，减少数据之间的相关性。在训练过程中，将代理的经验（状态、动作、奖励、下一个状态）存储在经验回放缓冲区中，然后随机从缓冲区中采样一批经验进行训练。

from collections import deque

# 经验回放缓冲区
replay_buffer = deque(maxlen=10000)

# 存储经验
replay_buffer.append((state, action, reward, next_state))

# 随机采样一批经验
batch_size = 32
batch = np.random.choice(replay_buffer, batch_size)

8. 总结与展望

通过对DDPG在山车连续环境中的实现和分析，我们了解了其工作原理和影响性能的关键因素，并提出了相应的优化策略。DDPG在连续动作控制任务中具有很大的潜力，但在实际应用中还需要根据具体的环境和任务进行调整和优化。

未来的研究方向可以包括：
- 多智能体协作 ：在复杂的环境中，多个智能体可以通过协作来完成任务。研究如何将DDPG扩展到多智能体系统中，实现智能体之间的有效协作和通信。
- 结合其他算法 ：可以将DDPG与其他强化学习算法或深度学习技术相结合，如与进化算法结合进行参数优化，或与生成对抗网络（GAN）结合进行环境建模和数据增强。
- 处理更复杂的环境 ：尝试将DDPG应用到更复杂的连续动作控制环境中，如机器人控制、自动驾驶等领域，解决实际问题并推动强化学习技术的发展。

graph LR
    A[DDPG初始模型] --> B[分析关键因素]
    B --> C[模型结构优化]
    B --> D[训练参数调整]
    B --> E[环境探索与利用]
    C --> F[优化后的模型]
    D --> F
    E --> F
    F --> G[应用于复杂环境]
    G --> H[多智能体协作]
    G --> I[结合其他算法]

通过不断地研究和实践，我们相信DDPG算法将在更多领域得到广泛应用，并取得更好的效果。