LfO: Imitation Learning from Observation with Automatic Discount Scheduling

ICLR 2024 Poster
paper
人类模仿学习过程是一个渐进的过程,不可能说当下的基础技能没学扎实,就模仿未来的目标。本篇文章便从这一个基本思想出发,通过自适应调整强化学习中折扣因子实现这一目标。实验环境设置在pixel-based observation-only 的演示下的模仿学习。

method

较小的折扣因子会让智能体注重当下但是却会表现得“短视”,因此需要随着训练的进行不断增加。算法通过一个过程识别器 Φ \Phi Φ输出一个0-T的整数k查询进度,以及一个单调递增函数 f γ ( k ) f_\gamma(k) fγ(k)更新 γ \gamma γ用于RL。

Φ \Phi Φ采用计算状态序列的最长单调递增子序列(LIS)。每当接收到最近收集的轨迹时,它就会考虑代理和演示轨迹的前 k + 1 步。如果代理与某些已演示轨迹之间的进度一致性与两个已演示专家轨迹之间的进度一致性相当,那就认为代理当前的策略可以在前 k 步中遵循演示。具体来说,如果下面的不等式成立,就将 k 增加1:
在这里插入图片描述
得到k后便是调整 γ \gamma γ : f γ ( k ) = α 1 / k f_\gamma(k) = \alpha^{1/k} f

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值