文章目录
前言
阅读此篇文章你将懂得,什么是QN ,什么是 Sarsa。如何手动编写环境,你将知道什么是DQN。此篇文章也是参考了大量的资料最后总结出来的,同时这个也是我两天的小结。
在开始之前我们需要介绍一下什么是 QN 然后什么是 DQN 什么是RL,这个东西能干什么?有什么神奇之处,这个其实也是我再次体会到数学的魅力的一次邂逅。
是什么是RL
RL 是一种机器学习方式叫做强化学习,它有什么特点,区别与监督学习它不需要我们手动提供标签,区别去无监督学习,它有一定的反馈机制,等价于提供了“标签” 。
所以什么是RL,这玩意是一种特殊的学习策略。为什么要学这个,其实也是巧合,有个老哥刚好在玩这个,然后我就发现这个和GAN有点像,它的策略。GAN我不行,这个我觉得我还是可以look look 的。而且我发现我似乎找到了一个好玩的点,所以抱着试一试的心态俺想look look。
今天也是会有两篇博文,一篇是这个,还有一篇是关于操作系统的,昨天晚上推那个DQ