
强化学习
文章平均质量分 77
waterHBO
分享有趣的内容,记录一些探索过程。 平时做做兼职,有事请私聊。
展开
-
强化学习: 继续看 Q-Learning + FrozenLake, 解决更大的地图 8x8, 10x10
因为,我之前在什么地方看过类似的思路。可能是算法题里面见过的。:比完全随机奖励的 Q-learning 更快收敛。8x8的地图很容易失败, 这个问题,我之前讲过。就是说,鼓励探索,探索的过程,也是有奖励的。如何解决, 一句话,根据距离来修改奖励.然后让 GPT 根据这个思路来写代码。:机器人不会盲目探索,而是朝目标前进。:鼓励它更早学习正确路径。原创 2025-03-09 11:48:08 · 373 阅读 · 0 评论 -
强化学习: 从头开始看 Q-Learning + FrozenLake-v1
说白了,q-table 记录的就是: 👉「在第 X 个格子,往 Y 方向走,能有多大收益。理解: 一个随机数,被 epsilon 分割为左右2个区域, 分别对应不同的选择。自己写的时候,我发现,其实可以简写为: Q = Q + new_stuff。也可以理解为:新 Q 值 = 老 Q 值的 (1 - α) + 新经验的 α。值:代表这个状态下执行这个动作,预计可以得到的“总回报”(长期奖励)。“用表格(q-table)记住在每个状态下做每个动作的价值,然后根据这个表格不断优化,找到最好的行为方式。原创 2025-03-07 15:02:11 · 556 阅读 · 0 评论 -
强化学习 FrozenLake 简单探索 2个例子。
对于 4x4 的地图,很容易得到结果,但是如果换成 8x8 的地图,很容易失败!就是因为地图太大,所以失败率太高,永远无法到达目标!第3种方法, sarsa , 后面再继续写。搜索范围越大,越容易失败。原创 2025-03-04 09:12:34 · 361 阅读 · 0 评论