文 / 李锡涵,Google Developers Expert
本文节选自《简单粗暴 TensorFlow 2》

本文将介绍在 OpenAI 的 gym 环境下,使用 TensorFlow 实现 Q-learning 算法,从而玩倒立摆游戏的流程。
深度强化学习 (DRL)
强化学习 (Reinforcement learning,RL)强调如何基于环境而行动,以取得最大化的预期利益。结合了深度学习技术后的 强化学习(Deep Reinforcement learning,DRL)更是如虎添翼。近年广为人知的 AlphaGo 即是深度强化学习的典型应用。
这里,我们使用深度强化学习玩 CartPole(倒立摆)游戏。倒立摆是控制论中的经典问题,在这个游戏中,一根杆的底部与一个小车通过轴相连,而杆的重心在轴之上,因此是一个不稳定的系统。在重力的作用下,杆很容易倒下。而我们则需要控制小车在水平的轨道上进行左右运动,以使得杆一直保持竖直平衡状态。
cartpole 游戏
我们使用 OpenAI 推出的 Gym 环境库 中的 CartPole 游戏环境,可使用pip install gym进行安装,具体安装步骤和教程可参考 官方文档 和 这里 。和 Gym 的交互过程很像是一个回合制

本文介绍了如何使用 TensorFlow 2 和 OpenAI Gym 实现深度强化学习(DRL)中的 Q-learning 算法,以解决倒立摆控制问题。通过建立 Q 函数网络,训练模型以预测最佳动作,最大化游戏的奖励总和。同时,文章探讨了状态设计和网络结构的选择,例如在不同任务中使用 CNN 拟合 Q 函数。
最低0.47元/天 解锁文章
4358

被折叠的 条评论
为什么被折叠?



