强化学习入门 第一讲 MDP
https://zhuanlan.zhihu.com/p/25498081
强化学习入门 第二讲 基于模型的动态规划方法
https://zhuanlan.zhihu.com/p/25580624
强化学习入门 第三讲蒙特卡罗方法
https://zhuanlan.zhihu.com/p/25743759
强化学习入门 第四讲 时间差分法(TD方法)
https://zhuanlan.zhihu.com/p/25913410
强化学习入门 第五讲 值函数逼近
https://zhuanlan.zhihu.com/p/26007538
深度强化学习系列 第一讲 DQN
https://zhuanlan.zhihu.com/p/26052182
强化学习进阶 第六讲 策略梯度方法
https://zhuanlan.zhihu.com/p/26174099
强化学习进阶 第七讲 TRPO
https://zhuanlan.zhihu.com/p/26308073
强化学习进阶 第八讲 确定性策略方法
https://zhuanlan.zhihu.com/p/26441204
强化学习进阶 第九讲 引导策略搜索
https://zhuanlan.zhihu.com/p/26531882
https://zhuanlan.zhihu.com/p/26572176
强化学习进阶 第十讲 逆向强化学习
https://zhuanlan.zhihu.com/p/26682811
https://zhuanlan.zhihu.com/p/26766494
https://zhuanlan.zhihu.com/p/26855870
本系列博文深入浅出地介绍了强化学习的基本概念和技术进展,从马尔科夫决策过程到最新的深度强化学习方法,如DQN及策略梯度等,为读者提供了一个全面的学习路径。
10万+

被折叠的 条评论
为什么被折叠?



