
强化学习
文章平均质量分 75
我家大宝最可爱
这个作者很懒,什么都没留下…
展开
-
跟着杰哥学强化学习:q-learning的一些思考
下一个状态next_s的down是1,right是-1,up和left都是0,所以更新s的时候q(s,a=‘right’) = q(s,a=‘right’) + (reward + max q(next_s, a) - q(s,a=‘right’))=0+(0+1)=1,我们发现根据下一个状态,当前的状态的某个动作也都有值了。四周的价值反馈都是0,根本不知道该往哪个方向移动是有价值的,(up,down,left,right)的值都是0,按照greedy的方式就会一直选择up,然后越界复位,循环往复。原创 2023-04-29 19:29:58 · 627 阅读 · 0 评论 -
跟着杰哥学强化学习:自定义格子世界
现在的动作是随机,我们可以手动来操作扫地机器人进行运动。原创 2023-04-29 22:47:55 · 270 阅读 · 0 评论 -
跟着杰哥学强化学习:多臂老虎机问题
现在有3台外观一模一样的老虎机,每个老虎机的赔率是不同的,摇动一次需要1块钱,现在给你100块钱,如何获取最大的收益。如果我们知道了每个老虎的赔率,那么只要选择收益最高的那个老虎机就可以了,但现在问题是并不知道每个老虎机的收益。为了简单,我们假设老虎机的收益服从正态分布我们没有办法找到老虎机,但是可以用python来进行模拟。原创 2023-04-29 19:22:52 · 1017 阅读 · 0 评论