DRL(一)——Supervised Learning and Imitation

DRL学习之路:从模仿到超越
本文探讨了深度强化学习(DRL)中的模仿学习方法及其局限性,包括行为克隆(behavior clone)和distributional drift问题。介绍了DAgger算法如何通过人机协作解决这些问题,但同时也指出了其依赖人工标注的不便。

写在前面

今天开始学习DRL了,其实RL还没完全看完……

大概总结一下

感觉这节课讲的内容是比较初级的一些方法,从标题就看得出来,Supervised Learning,和 Imitation。

教授先是讲了imitation,就是通过人类的training,建立data,然后智能体用这个data来模仿。这样当然有很多问题,比如training中的情况可能不会包含所有的情况,总是会有新的情况出现;再比如说training过程会出现一些错误,而这些错误可能会被智能体学到;还有一个问题,其实我还不太明白是什么意思,不同的action可能有相同的image……老师说后面会详细讲。
如下图,又被叫做behavior clone
在这里插入图片描述
然后,为了解决上面说的问题,可以通过在训练中不断出错然后纠正的方法来改善。
但是,当然这并不是一个很好的方法,还有问题:训练的轨迹和实际期望的轨迹会有偏差,当出现一点偏差,就会导致越来越大的偏差"drift",如下图:

在这里插入图片描述

然后介绍了解决上面问题 “distributional drift” 的方法——DAgger,算法如下:
在这里插入图片描述
The observation comes from policy, but the action actually comes from human.
但是,这种方法需要人来label DΠ ,这样非常不方便。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值