策略梯度(Policy Gradient)算法在CartPole环境中的实现与解析

策略梯度(Policy Gradient)算法在CartPole环境中的实现与解析

Reinforcement-Learning Reinforcement-Learning 项目地址: https://gitcode.com/gh_mirrors/rei/Reinforcement-Learning

策略梯度算法概述

策略梯度(Policy Gradient)是强化学习中的一类重要算法,它通过直接优化策略函数来寻找最优行为策略。与基于价值函数的方法不同,策略梯度方法直接对策略进行参数化建模,通过梯度上升来最大化期望回报。

策略函数通常表示为πθ(a|s),其中θ是策略的参数。策略梯度方法的目标是找到一组参数θ,使得策略能够最大化期望回报函数J(θ):

$$J(θ) = \sum_{s}d^π(s)\sum_{a}π_θ(a|s)Q^π(s,a)$$

REINFORCE算法

在Vanilla Policy Gradient(基本策略梯度)中,我们使用REINFORCE算法来估计回报Rt。为了减少方差,算法会从Rt中减去一个基线值。这种技术虽然简单,但能有效提高学习稳定性。

CartPole环境介绍

CartPole是强化学习中的经典控制问题,环境由一个可以左右移动的小车和一根连接在小车上的杆组成。目标是通过控制小车的左右移动,使杆保持竖直状态尽可能长的时间。

策略梯度实现详解

神经网络架构

我们使用一个简单的多层感知机(MLP)作为策略网络:

class PG_nn(nn.Module):
    def __init__(self, input_shape, n_actions):
        super(PG_nn, self).__init__()
        self.mlp = nn.Sequential(
            nn.Linear(input_shape[0], 64),
            nn.ReLU(),
            nn.Linear(64, n_actions))

这个网络包含:

  1. 输入层:接收环境状态
  2. 隐藏层:64个神经元,使用ReLU激活函数
  3. 输出层:输出每个动作的原始分数

折扣回报计算

def discounted_rewards(memories, gamma):
    disc_rew = np.zeros(len(memories))
    run_add = 0
    for t in reversed(range(len(memories))):
        if memories[t].done: run_add = 0
        run_add = run_add * gamma + memories[t].reward
        disc_rew[t] = run_add
    return disc_rew

这个函数实现了反向计算折扣回报的过程,gamma是折扣因子,控制未来回报的重要性。

主训练循环

训练过程包含以下关键步骤:

  1. 策略执行:根据当前策略选择动作
act = agent_nn(torch.tensor(obs))
act_soft = F.softmax(act)
action = int(np.random.choice(np.arange(action_n), p=act_soft.detach().numpy(), size=1))
  1. 经验收集:存储状态、动作、奖励等信息
experience.append(Memory(obs=obs, action=action, new_obs=new_obs, reward=reward, done=done))
  1. 策略更新:当episode结束时计算折扣回报并更新策略
disc_rewards = discounted_rewards(experience, GAMMA)
baseline.extend(disc_rewards)
disc_rewards -= np.mean(baseline)
  1. 损失计算:包含策略梯度和熵正则项
l_entropy = ENTROPY_BETA * torch.mean(torch.sum(F.softmax(acts, dim=1) * F.log_softmax(acts, dim=1), dim=1))
loss = - torch.mean(disc_rewards_t * game_act_log_softmax_t)
loss = loss + l_entropy
  1. 参数更新:使用Adam优化器更新网络参数
optimizer.zero_grad()
loss.backward()
optimizer.step()

关键技术点

  1. 基线减法:通过减去回报的移动平均来减少方差
  2. 熵正则化:鼓励探索,防止策略过早收敛到次优解
  3. 折扣回报:合理权衡即时回报和未来回报
  4. 策略参数化:使用神经网络灵活表示复杂策略

训练结果分析

从示例中的训练曲线可以看出,随着训练进行,智能体获得的回报逐渐增加并最终稳定在较高水平,表明策略梯度算法成功解决了CartPole问题。

实际应用建议

  1. 对于更复杂的环境,可能需要更深的网络结构
  2. 可以尝试不同的学习率和熵系数来优化性能
  3. 考虑使用更先进的策略梯度变体,如PPO或A3C
  4. 监控训练过程中的损失和回报曲线,及时调整超参数

策略梯度方法因其直接优化策略的特性,在许多连续动作空间的任务中表现出色。理解并掌握这一基础算法,是学习更复杂强化学习算法的重要基础。

Reinforcement-Learning Reinforcement-Learning 项目地址: https://gitcode.com/gh_mirrors/rei/Reinforcement-Learning

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

骆万湛Rebecca

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值