毕业论文【1】——Q-Learning

毕业论文已经选好题目了,这里记录下研究历程。

先学的是强化学习的经典算法——Q-Learning

看了这么多博客介绍,对Q-Learning算法也有了一定的认知。

我从国外一学生的个人博客中,找到了一篇关于Q-Learning的介绍和推导,大概发布于2010年左右,读完他的博客,我豁然开朗。

这位作者确实有很强的计算机思想,他告诉我,Q-Learning本质上是一个带权有向图据权值随节点移动的问题,如此重要的强化学习算法,背后原理却是最简单的“图”问题,正是这一点让我对他很钦佩。

可是他在2013年后就不再更新博客,还是挺遗憾的,据他个人介绍,他是自学的人工智能算法,看来他是毕业了,没有时间和精力再去学习和写博客了。

但是他的文章给了我很大的启迪,感谢他!

 

记录一下Q-Learning的一些问题:

  • 状态之间的权值 = (1 - alpha)*状态之间的权值 + alpha*(当前奖励 + gamma*远期奖励)

 

  • 这里把 远期奖励*gamma 是因为考虑到每行动一次,就会消耗一次步数,这样设置,旨在在有左右两条通往出口的路中,选择最近的一条。
  • gamma值越小,每一步的损失就越大,就越能选择最近的一条路。

 

  • 关于设置学习率alpha,保留当前(1 - alpha)的Q值,剩余alpha更新为新值。
  • alpha的含义可以近似理解为“记忆奖励的保留度”,
  • 经过我数学公式推导,可以证明,
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值