
强化学习
文章平均质量分 92
p_wh
这个作者很懒,什么都没留下…
展开
-
强化学习4:动态规划、蒙特卡洛、时序差分算法的代码实现
本文用C++实现DP、MC和TD三种算法,并且搭建一个小游戏环境来进行学习训练原创 2022-02-28 21:26:58 · 1241 阅读 · 0 评论 -
强化学习3:蒙特卡洛和时序差分
蒙特卡洛算法和时序差分算法,SARSA和Q-learning原创 2022-02-23 19:15:38 · 1818 阅读 · 0 评论 -
强化学习2:策略迭代和价值迭代(下)
策略迭代和价值迭代原创 2022-02-17 22:31:31 · 1194 阅读 · 0 评论 -
强化学习1:策略迭代与价值迭代(上)
状态价值函数和状态行为价值函数原创 2022-02-17 22:29:47 · 791 阅读 · 0 评论 -
动态规划9:马尔可夫决策过程
MDP可以看做是一个随机版本的动态规划问题原创 2022-02-14 20:58:54 · 1989 阅读 · 0 评论