策略梯度(Policy Gradient)算法在CartPole环境中的实现与解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01024/article/details/148527117

策略梯度(Policy Gradient)算法在CartPole环境中的实现与解析

Reinforcement-Learning 项目地址: https://gitcode.com/gh_mirrors/rei/Reinforcement-Learning

策略梯度算法概述

策略梯度(Policy Gradient)是强化学习中的一类重要算法，它通过直接优化策略函数来寻找最优行为策略。与基于价值函数的方法不同，策略梯度方法直接对策略进行参数化建模，通过梯度上升来最大化期望回报。

策略函数通常表示为πθ(a|s)，其中θ是策略的参数。策略梯度方法的目标是找到一组参数θ，使得策略能够最大化期望回报函数J(θ)：

$$J(θ) = \sum_{s}d^π(s)\sum_{a}π_θ(a|s)Q^π(s,a)$$

REINFORCE算法

在Vanilla Policy Gradient(基本策略梯度)中，我们使用REINFORCE算法来估计回报Rt。为了减少方差，算法会从Rt中减去一个基线值。这种技术虽然简单，但能有效提高学习稳定性。

CartPole环境介绍

CartPole是强化学习中的经典控制问题，环境由一个可以左右移动的小车和一根连接在小车上的杆组成。目标是通过控制小车的左右移动，使杆保持竖直状态尽可能长的时间。

策略梯度实现详解

神经网络架构

我们使用一个简单的多层感知机(MLP)作为策略网络：

class PG_nn(nn.Module):
    def __init__(self, input_shape, n_actions):
        super(PG_nn, self).__init__()
        self.mlp = nn.Sequential(
            nn.Linear(input_shape[0], 64),
            nn.ReLU(),
            nn.Linear(64, n_actions))

这个网络包含：

输入层：接收环境状态
隐藏层：64个神经元，使用ReLU激活函数
输出层：输出每个动作的原始分数

折扣回报计算

def discounted_rewards(memories, gamma):
    disc_rew = np.zeros(len(memories))
    run_add = 0
    for t in reversed(range(len(memories))):
        if memories[t].done: run_add = 0
        run_add = run_add * gamma + memories[t].reward
        disc_rew[t] = run_add
    return disc_rew

这个函数实现了反向计算折扣回报的过程，gamma是折扣因子，控制未来回报的重要性。

主训练循环

训练过程包含以下关键步骤：

策略执行：根据当前策略选择动作

act = agent_nn(torch.tensor(obs))
act_soft = F.softmax(act)
action = int(np.random.choice(np.arange(action_n), p=act_soft.detach().numpy(), size=1))

经验收集：存储状态、动作、奖励等信息

experience.append(Memory(obs=obs, action=action, new_obs=new_obs, reward=reward, done=done))

策略更新：当episode结束时计算折扣回报并更新策略

disc_rewards = discounted_rewards(experience, GAMMA)
baseline.extend(disc_rewards)
disc_rewards -= np.mean(baseline)

损失计算：包含策略梯度和熵正则项

l_entropy = ENTROPY_BETA * torch.mean(torch.sum(F.softmax(acts, dim=1) * F.log_softmax(acts, dim=1), dim=1))
loss = - torch.mean(disc_rewards_t * game_act_log_softmax_t)
loss = loss + l_entropy

参数更新：使用Adam优化器更新网络参数

optimizer.zero_grad()
loss.backward()
optimizer.step()

关键技术点

基线减法：通过减去回报的移动平均来减少方差
熵正则化：鼓励探索，防止策略过早收敛到次优解
折扣回报：合理权衡即时回报和未来回报
策略参数化：使用神经网络灵活表示复杂策略

训练结果分析

从示例中的训练曲线可以看出，随着训练进行，智能体获得的回报逐渐增加并最终稳定在较高水平，表明策略梯度算法成功解决了CartPole问题。

实际应用建议

对于更复杂的环境，可能需要更深的网络结构
可以尝试不同的学习率和熵系数来优化性能
考虑使用更先进的策略梯度变体，如PPO或A3C
监控训练过程中的损失和回报曲线，及时调整超参数

策略梯度方法因其直接优化策略的特性，在许多连续动作空间的任务中表现出色。理解并掌握这一基础算法，是学习更复杂强化学习算法的重要基础。

Reinforcement-Learning 项目地址: https://gitcode.com/gh_mirrors/rei/Reinforcement-Learning

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考