强化学习:策略梯度实现、优化及游戏应用
1. 连续控制与高斯 A2C 算法
1.1 算法设置
首先,我们将折扣因子设为 0.9:
gamma = 0.9
使用刚刚开发的策略网络,通过演员 - 评论家(actor - critic)算法进行 200 个回合的连续控制,并记录每个回合的总奖励:
n_episode = 200
total_reward_episode = [0] * n_episode
actor_critic(env, policy_net, n_episode, gamma)
1.2 结果可视化
为了直观展示回合奖励随时间的变化,我们使用 matplotlib 库进行绘图:
import matplotlib.pyplot as plt
plt.plot(total_reward_episode)
plt.title('Episode reward over time')
plt.xlabel('Episode')
plt.ylabel('Total reward')
plt.show()
1.3 算法原理
在这个过程中,我们使用高斯 A2C 算法解决连续的山地车环境问题。网络有一个隐藏层,输出层包含三个部分:高斯分布的均值、标准差以及状态值。分布均
超级会员免费看
订阅专栏 解锁全文
1285

被折叠的 条评论
为什么被折叠?



