使用深度 Q 学习的 AI 驱动蛇游戏

最新推荐文章于 2024-02-05 13:36:59 发布

原创

最新推荐文章于 2024-02-05 13:36:59 发布 · 532 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了一个基于强化学习的蛇游戏项目，通过训练蛇吃食物来实现AI控制。文章详细阐述了算法原理，包括环境设定、状态计算、奖励机制和Q值更新。模型采用PyTorch构建的神经网络，代理负责协调环境和模型的交互。训练过程中，通过贝尔曼方程和重放记忆更新Q值。项目展示了训练过程和应用潜力，可用于自动驾驶等现实世界场景。

简介： 该项目基于强化学习，训练蛇吃环境中存在的食物。

下面给出了一个示例 gif，您可以了解我们将要构建的内容。

AI驱动的蛇

要了解我们如何使用 pygame 手动构建这个蛇 2D 动画模拟，请点击链接：

在构建基本的蛇游戏之后，现在我们将专注于如何将强化学习应用于它。

我们必须在这个项目中创建三个模块：

环境（我们刚刚构建的游戏）
模型（移动预测的强化模型）
代理（环境和模型之间的中介）

模块链接

算法：

我们在棋盘上随机放置了蛇和食物。

使用 11 个值计算蛇的状态。如果有任何条件为真，则将该值设置为0，否则设置1。

如何定义 11 个状态

基于当前的 Head 位置代理将计算 11 个状态值，如上所述。

获得这些状态后，代理会将其传递给模型并执行下一步操作。
执行下一个状态后计算奖励。奖励定义如下：
- 吃食物：+10
- 游戏结束：-10
- 其他：0
更新 Q 值（稍后将讨论）并训练模型。
在分析了算法之后，现在我们必须建立思想来继续编码这个算法。

该模型：

神经网络模型

该模型是使用 Pytorch 设计的，但您也可以根据自己的舒适度使用 TensorFlow。

我们正在使用具有11 大小输入层和具有 256 个神经元和3 个神经 元 输出的 密集层的密集神经网络。您可以调整这些超参数以获得最佳结果。

模型如何工作？

游戏开始，Q值随机初始化。
系统获取当前状态 s。
它基于 s，随机或基于其神经网络执行一个动作。在训练的第一阶段，系统经常选择随机动作来最大化探索。后来，该系统越来越依赖其神经网络。
当 AI 选择并执行动作时，环境会给予奖励。然后，代理到达新状态并根据贝尔曼方程更新其 Q 值。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。