毕业论文已经选好题目了,这里记录下研究历程。
先学的是强化学习的经典算法——Q-Learning
看了这么多博客介绍,对Q-Learning算法也有了一定的认知。
我从国外一学生的个人博客中,找到了一篇关于Q-Learning的介绍和推导,大概发布于2010年左右,读完他的博客,我豁然开朗。
这位作者确实有很强的计算机思想,他告诉我,Q-Learning本质上是一个带权有向图据权值随节点移动的问题,如此重要的强化学习算法,背后原理却是最简单的“图”问题,正是这一点让我对他很钦佩。
可是他在2013年后就不再更新博客,还是挺遗憾的,据他个人介绍,他是自学的人工智能算法,看来他是毕业了,没有时间和精力再去学习和写博客了。
但是他的文章给了我很大的启迪,感谢他!
记录一下Q-Learning的一些问题:
- 状态之间的权值 = (1 - alpha)*状态之间的权值 + alpha*(当前奖励 + gamma*远期奖励)
- 这里把 远期奖励*gamma 是因为考虑到每行动一次,就会消耗一次步数,这样设置,旨在在有左右两条通往出口的路中,选择最近的一条。
- gamma值越小,每一步的损失就越大,就越能选择最近的一条路。
- 关于设置学习率alpha,保留当前(1 - alpha)的Q值,剩余alpha更新为新值。
- alpha的含义可以近似理解为“记忆奖励的保留度”,
- 经过我数学公式推导,可以证明,