文章核心总结与翻译
一、主要内容
本文聚焦于基于模型的强化学习(MBRL)中样本效率不足的问题,提出利用海量真实场景视频(in-the-wild videos)进行无监督预训练,以提升下游视觉控制任务的学习效率。
核心背景
- 现有MBRL的预训练方法多依赖领域特定或模拟数据,缺乏通用性;直接使用真实场景视频时,因背景复杂、外观多样等上下文因素,导致世界模型难以提取共享的世界知识。
- 受生物视觉系统启发(80%细胞处理空间细节,20%处理时间变化),需分离上下文(静态信息)和动力学(时间变化信息)建模。
核心方法
- IPV范式:提出“In-the-wild Pre-training from Videos”(IPV)范式,使用真实场景视频(如人类交互、驾驶视频)进行无动作预训练,再通过MBRL微调下游视觉控制任务(机器人操作、运动、自动驾驶)。
- ContextWM模型:设计“Contextualized World Models”(ContextWM),核心是显式分离上下文与动力学建模:
- 上下文编码器:从随机采样的帧中提取静态信息(纹理、形状等),通过多尺度交叉注意力机制增强图像解码器。
- 潜在动力学模型:专注于捕捉关键时间变化(位置、运动等),避免被低层次视觉细节干扰。
- 双奖励预测器:分别回归探索性奖励(行为学习)和纯奖励(

订阅专栏 解锁全文
5856

被折叠的 条评论
为什么被折叠?



