ICLR 2024 Spotlight
paper
Intro
利用海量网络视频数据对模型预训练是提升算法效率的有效方法。然而此类数据缺乏offline下的任务动作标签,因此应用于RL困难。本文提出LAPO则是从只包含观测的演示中推断潜在动作在以及隐空间策略表现形式,为在线RL以及离线RL提供预训练的策略。
Method
Latent action representation
LAPO预训练阶段包含两个模型:逆动力学模型 P I D M ( z t ∣ o t , o t + 1 ) P_{IDM}(z_t|o_t,o_{t+1}) PIDM(zt∣ot,ot+1)和前向动力学模型 P F D M ( o t + 1 ∣ o t , z t ) P_{FDM}(o_{t+1}|o_t,z_{t}) PFDM(ot+1∣ot,zt),

而在实际使用中,LAPO采样一个k-steps sequence的历史数据以及下一时刻的观测预测la

本文介绍了一种名为LAPO的方法,它利用未标注的网络视频数据推断潜在动作和策略,通过逆动力学和前向动力学模型进行预训练,以支持在线和离线强化学习。该方法采用信息瓶颈和矢量量化技术,以提高策略表征的效率和解耦性,尽管存在延迟效应和随机性挑战。
最低0.47元/天 解锁文章
1567

被折叠的 条评论
为什么被折叠?



