你们是怎么忍住不整一波AI玩贪吃蛇的?——Policy Gradient思想、REINFORCE算法,以及贪吃蛇小游戏(二)


前情提要

上回咱讲到,对于计算机而言,策略可以是很抽象的东西。

或者说得更直白一些。

只要是一个输出能和动作空间形成对应的函数,不管你是一个超级离散的字典,还是神经网络,还是完全随机的东西,都可以是一个策略。

而要在这些五花八门的策略中,找到最优的那个,就需要:

(一)这个策略所用的函数,需要是基本可导的。(其实现在的神经网络,几乎在数学上也是不可导的。但实际操作上,可以认为是可导的)说人话,就是,最好是个深度的神经网络。这玩意儿好啊,可以被求导,也可以被优化。

(二)找到一种机制,去更新一个策略到一个更优的策略。

为此,我们首先得能评价两个策略,哪个更好,哪个更坏。

例如,有人会在大盘低于3000点的时候,开始定投。这是一种策略。

有人会在大屏低于2900时,才开始定投。这也是一种策略。

但从字面来看,其实我们很难就笃定,哪一个策略一定是比另一个更好的。

(三&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

几道之旅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值