LfO: Imitation Learning from Observation with Automatic Discount Scheduling

原创

已于 2024-12-12 17:32:07 修改 · 775 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #机器学习 #人工智能

于 2024-12-12 17:31:01 首次发布

ICLR 2024 Poster
paper
人类模仿学习过程是一个渐进的过程，不可能说当下的基础技能没学扎实，就模仿未来的目标。本篇文章便从这一个基本思想出发，通过自适应调整强化学习中折扣因子实现这一目标。实验环境设置在pixel-based observation-only 的演示下的模仿学习。

method

较小的折扣因子会让智能体注重当下但是却会表现得“短视”，因此需要随着训练的进行不断增加。算法通过一个过程识别器 $\Phi$ 输出一个0-T的整数k查询进度，以及一个单调递增函数 $f_\gamma(k)$ 更新 $\gamma$ 用于RL。

$\Phi$ 采用计算状态序列的最长单调递增子序列（LIS）。每当接收到最近收集的轨迹时，它就会考虑代理和演示轨迹的前 k + 1 步。如果代理与某些已演示轨迹之间的进度一致性与两个已演示专家轨迹之间的进度一致性相当，那就认为代理当前的策略可以在前 k 步中遵循演示。具体来说，如果下面的不等式成立，就将 k 增加1：
在这里插入图片描述
得到k后便是调整 $\gamma$ : $f_\gamma(k) = \alpha^{1/k}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。