
RL
文章平均质量分 83
UnicornH!XD
这个作者很懒,什么都没留下…
展开
-
强化学习算法(一)Qlearning
之前两篇介绍了强化学习基本理论,MDP,Q值,V值,MC,TD。这篇文章中,我会介绍一下我再学习RL过程中学习过的算法,下面从Qlearning开始。Qlearning之前的文章中,我介绍了MC,和TD。QleafninQlearning是value-based的算法,Q就是Q(s,a),即agent在某一时刻s状态下采取的a来获得reward的期望。环境会根据agent的动作反馈相应的回报reward r。因此Qlearning是将State 与 Action构建成一张Q-table来存储Q.原创 2021-07-05 09:50:36 · 1741 阅读 · 1 评论 -
强化学习(RL)学习笔记(二)蒙特卡洛(MC),时序差分(TD)算法
强化学习(RL)学习笔记(二)蒙特卡洛Monte-Carlo算法:1.讲agent放入环境的任意状态2.从这个状态开始选择action, 并进入下一个状态3.重复第二步知道达到最终状态4.从最终状态回溯,计算每一个状态的G值5.重复1-4过程,然后平均每一次的G值,最后得到的就是V值...原创 2021-06-28 10:21:43 · 1111 阅读 · 0 评论 -
强化学习(RL)学习笔记(一)MDP,V值,Q值
强化学习(RL)学习笔记(一)MDP本人在研究生阶段选择通过深度强化学习实现自动驾驶作为毕业项目,今后将分享一些在学习强化学习过程中的心得,还请各位大牛多多指教。学习过程中的参考文献及链接将附在每篇文章的结尾。什么是强化学习强化学习,就是使我们的智能体Agent获得独立自主的完成某项任务的能力。智能体学习和做出行动的地方,就是我们的环境。这些Agent在于环境互动的过程中,会因为不同的行为产生不同的奖励Reward,在与环境的不断交互中不断改进。如图,感知-行动-学习循环(perception-ac原创 2021-06-08 14:53:31 · 4925 阅读 · 0 评论