DRL(一)——Supervised Learning and Imitation

本文探讨了深度强化学习(DRL)中的模仿学习方法及其局限性,包括行为克隆(behavior clone)和distributional drift问题。介绍了DAgger算法如何通过人机协作解决这些问题,但同时也指出了其依赖人工标注的不便。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写在前面

今天开始学习DRL了,其实RL还没完全看完……

大概总结一下

感觉这节课讲的内容是比较初级的一些方法,从标题就看得出来,Supervised Learning,和 Imitation。

教授先是讲了imitation,就是通过人类的training,建立data,然后智能体用这个data来模仿。这样当然有很多问题,比如training中的情况可能不会包含所有的情况,总是会有新的情况出现;再比如说training过程会出现一些错误,而这些错误可能会被智能体学到;还有一个问题,其实我还不太明白是什么意思,不同的action可能有相同的image……老师说后面会详细讲。
如下图,又被叫做behavior clone
在这里插入图片描述
然后,为了解决上面说的问题,可以通过在训练中不断出错然后纠正的方法来改善。
但是,当然这并不是一个很好的方法,还有问题:训练的轨迹和实际期望的轨迹会有偏差,当出现一点偏差,就会导致越来越大的偏差"drift",如下图:

在这里插入图片描述

然后介绍了解决上面问题 “distributional drift” 的方法——DAgger,算法如下:
在这里插入图片描述
The observation comes from policy, but the action actually comes from human.
但是,这种方法需要人来label DΠ ,这样非常不方便。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值