你们是怎么忍住不整一波AI玩贪吃蛇的？——Policy Gradient思想、REINFORCE算法，以及贪吃蛇小游戏（二）

几道之旅

于 2025-04-17 12:57:19 发布

阅读量225

点赞数 6

分类专栏：人工智能，智能体及数字员工 # 强化学习篇文章标签：人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xiezhipu/article/details/147289672

版权

人工智能，智能体及数字员工同时被 2 个专栏收录

135 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

强化学习篇

30 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

前情提要
在此基础上，如何评价两个策略的好坏？
- 用程序员更容易理解的方式，直接解释这个J是怎么求出来的
回到正题，有了J值，我就可以定量地去评价两个策略，哪个更优，哪个更劣。J值大就是优，这就是所谓的J值即正义
如果我的策略的总体的模型架构已经确定好了（记为π（θ）），能变的只有参数集合θ，则只要只要 $θ^*$ 可以最大化J，那π（ $θ^*$ ）就是被当前模型结构所框定范围内的最佳策略。

前情提要

上回咱讲到，对于计算机而言，策略可以是很抽象的东西。

或者说得更直白一些。

只要是一个输出能和动作空间形成对应的函数，不管你是一个超级离散的字典，还是神经网络，还是完全随机的东西，都可以是一个策略。

而要在这些五花八门的策略中，找到最优的那个，就需要：

（一）这个策略所用的函数，需要是基本可导的。（其实现在的神经网络，几乎在数学上也是不可导的。但实际操作上，可以认为是可导的）说人话，就是，最好是个深度的神经网络。这玩意儿好啊，可以被求导，也可以被优化。

（二）找到一种机制，去更新一个策略到一个更优的策略。

为此，我们首先得能评价两个策略，哪个更好，哪个更坏。

例如，有人会在大盘低于3000点的时候，开始定投。这是一种策略。

有人会在大屏低于2900时，才开始定投。这也是一种策略。

但从字面来看，其实我们很难就笃定，哪一个策略一定是比另一个更好的。

（三&

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

几道之旅 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。