策略梯度(Policy Gradient)算法在CartPole环境中的实现与解析
Reinforcement-Learning 项目地址: https://gitcode.com/gh_mirrors/rei/Reinforcement-Learning
策略梯度算法概述
策略梯度(Policy Gradient)是强化学习中的一类重要算法,它通过直接优化策略函数来寻找最优行为策略。与基于价值函数的方法不同,策略梯度方法直接对策略进行参数化建模,通过梯度上升来最大化期望回报。
策略函数通常表示为πθ(a|s),其中θ是策略的参数。策略梯度方法的目标是找到一组参数θ,使得策略能够最大化期望回报函数J(θ):
$$J(θ) = \sum_{s}d^π(s)\sum_{a}π_θ(a|s)Q^π(s,a)$$
REINFORCE算法
在Vanilla Policy Gradient(基本策略梯度)中,我们使用REINFORCE算法来估计回报Rt。为了减少方差,算法会从Rt中减去一个基线值。这种技术虽然简单,但能有效提高学习稳定性。
CartPole环境介绍
CartPole是强化学习中的经典控制问题,环境由一个可以左右移动的小车和一根连接在小车上的杆组成。目标是通过控制小车的左右移动,使杆保持竖直状态尽可能长的时间。
策略梯度实现详解
神经网络架构
我们使用一个简单的多层感知机(MLP)作为策略网络:
class PG_nn(nn.Module):
def __init__(self, input_shape, n_actions):
super(PG_nn, self).__init__()
self.mlp = nn.Sequential(
nn.Linear(input_shape[0], 64),
nn.ReLU(),
nn.Linear(64, n_actions))
这个网络包含:
- 输入层:接收环境状态
- 隐藏层:64个神经元,使用ReLU激活函数
- 输出层:输出每个动作的原始分数
折扣回报计算
def discounted_rewards(memories, gamma):
disc_rew = np.zeros(len(memories))
run_add = 0
for t in reversed(range(len(memories))):
if memories[t].done: run_add = 0
run_add = run_add * gamma + memories[t].reward
disc_rew[t] = run_add
return disc_rew
这个函数实现了反向计算折扣回报的过程,gamma是折扣因子,控制未来回报的重要性。
主训练循环
训练过程包含以下关键步骤:
- 策略执行:根据当前策略选择动作
act = agent_nn(torch.tensor(obs))
act_soft = F.softmax(act)
action = int(np.random.choice(np.arange(action_n), p=act_soft.detach().numpy(), size=1))
- 经验收集:存储状态、动作、奖励等信息
experience.append(Memory(obs=obs, action=action, new_obs=new_obs, reward=reward, done=done))
- 策略更新:当episode结束时计算折扣回报并更新策略
disc_rewards = discounted_rewards(experience, GAMMA)
baseline.extend(disc_rewards)
disc_rewards -= np.mean(baseline)
- 损失计算:包含策略梯度和熵正则项
l_entropy = ENTROPY_BETA * torch.mean(torch.sum(F.softmax(acts, dim=1) * F.log_softmax(acts, dim=1), dim=1))
loss = - torch.mean(disc_rewards_t * game_act_log_softmax_t)
loss = loss + l_entropy
- 参数更新:使用Adam优化器更新网络参数
optimizer.zero_grad()
loss.backward()
optimizer.step()
关键技术点
- 基线减法:通过减去回报的移动平均来减少方差
- 熵正则化:鼓励探索,防止策略过早收敛到次优解
- 折扣回报:合理权衡即时回报和未来回报
- 策略参数化:使用神经网络灵活表示复杂策略
训练结果分析
从示例中的训练曲线可以看出,随着训练进行,智能体获得的回报逐渐增加并最终稳定在较高水平,表明策略梯度算法成功解决了CartPole问题。
实际应用建议
- 对于更复杂的环境,可能需要更深的网络结构
- 可以尝试不同的学习率和熵系数来优化性能
- 考虑使用更先进的策略梯度变体,如PPO或A3C
- 监控训练过程中的损失和回报曲线,及时调整超参数
策略梯度方法因其直接优化策略的特性,在许多连续动作空间的任务中表现出色。理解并掌握这一基础算法,是学习更复杂强化学习算法的重要基础。
Reinforcement-Learning 项目地址: https://gitcode.com/gh_mirrors/rei/Reinforcement-Learning
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考