[强化学习实战]策略梯度方法(policy gradient)-python车杆平衡实战

最新推荐文章于 2025-09-06 08:59:48 发布

原创

最新推荐文章于 2025-09-06 08:59:48 发布 · 4.5k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #算法 #python

本文通过Python实现策略梯度方法解决车杆平衡问题（CartPole-v0），对比了同策与异策策略梯度算法的效果，并讨论了带基线与不带基线方法的差异。

策略梯度方法-python车杆平衡实战

案例分析

代码链接

案例分析

本文考虑Gym库里的车杆平衡问题（CartPole-v0）。如下图所示，一个小车（cart）可以在直线滑轨上移动。一个杆（pole）一头连着小车，另一头悬空，可以不完全直立。小车的初始位置和杆的初始角度都是在一定范围内随机选取的。智能体可以控制小车沿着滑轨左移1个单位或者右移1段固定的距离（移动的幅度是固定的，而且不可以不移动）。出现以下情形中的任一情形时，回合结束：

·杆的倾斜角度超过12度；

·小车移动超过2.4个单位长度；

·回合达到200步。

每进行1步得到1个单位的奖励。我们希望回合能够尽量地长。一般认为，如果在连续的100个回合中的平均奖励≥195，就认为问题解决了。

这个任务中，观察值有4个分量，分别表示小车位置、小车速度、木棒角度和木棒角速度，其取值范围如表7-1所示。动作则取自{0,1}，分别表示向左施力和向右施力。
在这里插入图片描述
对于随机策略，其回合奖励大概在9～10之间。

同策策略梯度算法求解最优策略

先来使用同策算法求解最优策略。下面代码中的VPGAgent类是算法的智能体类，它同时支持不带基线的版本和带基线的版本。它用人工神经网络来近似策略函数。

class VPGAgent:
def __init__(self, env, policy_kwargs, baseline_kwargs=None,
gamma=0.99):
self.action_n = env.action_space.n
self.gamma = gamma
self.trajectory = [] # 轨迹存储
self.policy_net = self.build_network(output_size=self.action_n,
output_activation=tf.nn.softmax,
loss=keras.losses.categorical_crossentropy,
**policy_kwargs)
if baseline_kwargs: # 基线
self.baseline_net = self.build_network(output_size=1,
**baseline_kwargs)
def build_network(self, hidden_sizes, output_size,
activation=tf.nn.relu, output_activation=None,
loss=keras.losses.mse, learning_rate=0.01):
model = keras.Sequential()
for hidden_size in hidden_sizes:
model.add(keras.layers.Dense(units=hidden_size,
activation=activation))
model.add(keras.layers.Dense(units=output_size,
activation=output_activation))
optimizer = keras.optimizers.Adam(learning_rate)
model.compile(optimizer=optimizer, loss=loss)
return model
def decide(self, observation):
probs = self.policy_net.predict(observation[np.newaxis])[0]
action = np.random.choice(self.action_n, p=probs)
return action
def learn(self, observation, action, reward

最低0.47元/天解锁文章