
强化学习
文章平均质量分 91
Venus-ww
这个作者很懒,什么都没留下…
展开
-
Successor features for transfer in reinforcement learning》论文阅读
之前读了《Universal Value Function Approximators 》一直对于论文中提到的迁移耿耿于怀于两点:第一,这个迁移是指什么?到底何种程度的迁移,真实像文章中 说的一样,训了10个点,然后将其扩展到没有训练的其它5个点上去吗(这不就是监督学习中的泛化吗?第二,如果不是泛化过程,而是迁移,那技术上如何实现,是把训练好的统一值函数保存下来吗?原创 2025-04-30 16:06:21 · 1047 阅读 · 0 评论 -
Universal Value Function Approximators 论文阅读(强化学习,迁移?)
这也是我前两次无解的原因之一,因为我一直以为这个实验的最终目的是吃尽可能多的豆子(每个"demon"是一个负责学习特定子目标价值函数的独立DQN实例并不是游戏中的敌人,也不是多个Pac-Man (游戏中确实只有一个Pac-Man角色)),而伪奖励(Pseudo-reward)只是子任务,会有进行迁移然后完成最终任务,但是我自始至终没有看到相关描述,所以这里的迁移很可能只是测试验证泛化性的那种意思!MS Pacman的游戏的设定在这里也改了:Pac-Man需要吃掉所有豆子同时避开敌人。原创 2025-04-26 16:39:47 · 1105 阅读 · 0 评论 -
强化学习复习,价值函数的推导——北大pdf p41(ppt75)(动手学也有)
强化学习理论学习原创 2025-04-21 13:26:53 · 948 阅读 · 0 评论 -
标准蒙特卡洛积分估计定义式到数值逼Robbins-Monro 形式推导过程——对应北大DRLp26
图中第二个公式是对第一个均值公式的递推形式重写,使得你可以在线更新qtq_tqt,不需要存储所有的fxif(x_i)fxi。当设αt1tαtt1,两者是等价的。原创 2025-04-20 20:17:07 · 893 阅读 · 0 评论 -
学习机械臂强化学习(现有资源https://zhuanlan.zhihu.com/p/372962974)
机械臂强化学习,别人的代码学习记录1原创 2022-11-19 20:39:57 · 3017 阅读 · 0 评论