Unsupervised Perceptual Rewards for Imitation Learning 论文简析

本文介绍一种无监督学习方法,通过视觉感知信息分解动作并预训练深度模型获取特征,用于机器人技能学习。该方法避免了精细调整,直接利用预训练特征计算奖励,简化了强化学习过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《Unsupervised Perceptual Rewards for Imitation Learning》

1、摘要

论文要点:

(1)用视觉感知信息来将示范动作分解成一定的setp;

  (2)  使用Intention Network 来预训练 ImageNet,得到视觉特征表示(文中说这类网络训练的图像特征有很好的 迁移性);

(3)实践证明由预训练得到的视觉特征可以直接用来求reward,而不用fineturning

2、算法

(1)基于时间独立高斯模型的逆强化学习 Inverse Reinforcement Learning with Time-Independent Gaussian Models

 we have only to fit the mean and variance of each feature distribution, and then use the log of the resulting Gaussian as the reward.

作者求了每个特征分布的方差和均值,然后用得到的高斯对数作为奖励;

(2)中间步骤的提取  Discovery of Intermediate Steps

在这项工作中,我们采用算法1中描述的简单递归视频分割算法(递归相似最大化)。直观地,该方法分解视频序列,使得每一段中的每个帧,抽象地类似于该段中的每个其他帧。

(3)步骤的分类 step classification

总体意思就是,得到的特征非常庞大,但是选取一小部分特征是可以得到合理的、准确的分类的;

 

前面的perceptual feathure 作者得到了一个很高的维度。通过这个高维表示,我们假设存在一个中高级特征的子集,可以容易和紧凑地区分以前看不见的输入。我们使用附录C中描述的简单特征选择方法来研究该假设。一小部分判别特征的存在可用于减少低数据机制中的过度配置,但更重要的是可以允许大大减少无监督步骤的搜索空间发现。

实际上,由于每个帧由数百万个特征描述,因此跨视频的特征相关性的发现导致组合爆炸。然而,如果存在能够相当准确的步骤分类的特征的低维子集,则该问题可能变得易于处理。我们在第III-A2节中测试并讨论了该假设。

我们还训练一个简单的线性层,它将用于步骤发现的相同的中到高级激活作为输入,并输出每个步骤的分数。使用逻辑回归训练该线性层,并且未对基础深度模型进行微调。尽管有大输入(1,453,824个单位)和低数据制度(每个30到50帧的11到19个视频),我们表明该模型并没有严重超过训练数据,并且表现略好于所描述的特征选择方法在第III-A2节中。

验证:

然而,一小部分特征(在这种情况下为32)可以导致合理的分类准确性的想法得到了验证,并且是一个重要的信息,用于在无监督的步骤发现中大幅减少搜索空间以用于未来的工作。另外,我们在图3中示出了当特征数量n在区域[32,64]中时特征选择方法很好地工作但是当n> 8192时折叠到0%准确度。

(4)基于感知奖励函数的强化学习  Using Perceptual Rewards for Robotic Learning

为了在完整的技能学习系统中使用我们学到的感知奖励函数,我们还必须选择强化学习算法和策略表示。虽然原则上任何强化学习算法都适合这项任务,但我们选择了一种方法,可以有效地评估现实世界的机器人系统,以验证我们的方法。我们使用的方法基于PI2强化学习算法[30]。我们的实现(在附录D中有更详细的讨论)使用了相对简单的线性高斯参数化策略,该参数化对应于开环动态命令与固定线性反馈的序列,以校正扰动。此方法还需要从示例演示初始化,以便有效地学习复杂的操作任务。也可以使用更复杂的神经网络策略[9],更复杂的RL算法也可以在没有演示初始化的情况下学习技能。但是,由于该组件的主要目的是验证学习的奖励功能,我们使用这种简单的方法快速有效地测试我们的奖励。

4、验证

开门任务;

比较视觉奖励的成功率与基线PI2方法,该方法使用通过IMU检测门获得的真实奖励功能。 我们运行PI2进行11次迭代,每次迭代时有10个采样轨迹。 从图8中可以看出,我们获得了与我们的基线模型类似的收敛速度,并且可以与所有方法一致地进行。 由于我们的local policy能够获得高回报的candidate轨迹,这是一个强有力的证据,即感知奖励可以用于以与[9]相同的方式训练global policy。

 

5、总结

在本文中,我们提出了一种自动识别重要中间目标的方法,给出了一些任务的视觉演示。通过利用从预训练深度模型中学到的一般特征,我们提出了一种从人类演示中快速学习增量奖励函数的方法,我们在真实的机器人学习任务中成功地证明了这一点。

我们表明,预训练模型足够通用,无需再训练。我们还展示了,存在一小部分预训练特征,这些特征即使对于先前看不见的场景也具有高度辨别力,并且可用于减少未监督子目标发现中的未来工作的搜索空间。

在这项工作中,我们研究了机器人/演示者的视角固定的环境设定下的模仿学习。未来工作的一个有趣方向是分析视角变化的影响。学习各种各样经验的能力也与机器人学习最终的目标联系在一起。使用无监督奖励的持续学习有望大大增加体验的多样性,从而产生更强大和更通用的机器人技能。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值