
强化学习
文章平均质量分 92
原创小白变怪兽
这个作者很懒,什么都没留下…
展开
-
强化学习的Sarsa与Q-Learning的Cliff-Walking对比实验
Cliff-Walking仿真的是中第五讲课中的例子课程的地址给在这里记录一下强化学习课程的学习暂时完结,完结撒花,哒哒!原创 2023-01-03 15:54:59 · 1426 阅读 · 2 评论 -
强化学习(RL)中的Q-learning在拿奖杯游戏的表现
总的来说就是对问题进行建模,对policy,value,q值,environment进行不同程度上的构建,然后经过不同算法的训练更新比如(时序差分,蒙特卡洛),其核心思想是bellman方程,最后经过收敛判断得出结果。每次迭代中,我们都让代理人(agent)从state = 8出发,根据ε-greedy选择动作,再贪心地根据Q(S,A)原创 2022-10-14 09:07:23 · 485 阅读 · 0 评论