Video Prediction Policy(VPP)提出了一个创新性框架来解决具身智能中的通用操作策略学习问题。该方法采用两阶段训练范式:第一阶段通过构建多模态视频扩散模型(Video Diffusion Models, VDMs),在混合的人类操作数据集与机器人操作数据集上进行跨域预训练,建立具有时空推理能力的视频预测基础模型;第二阶段创新性地将 VDMs 输出的隐空间表征作为感知特征,通过策略蒸馏技术训练 Diffusion Policy,最终实现跨任务、跨平台的操作策略迁移。这种将视频生成模型与决策模型解耦的架构设计,在保持视觉表征丰富性的同时,显著提升了策略模型的样本效率和泛化能力。

传统视觉表征学习方法(如基于对比学习的SimCLR、MoCo等)通常采用静态帧重建或双帧时序建模作为预训练目标,单/双帧输入难以构建连续状态演变的完整观测空间,导致编码器无法建立动作-状态变化的因果关联。VPP创新性地引入视频生成模型作为 vision encoder,输入一帧 H ∗ W H*W H∗W是当前图片,输出 (T-1) 个 H ∗ M H*M H∗M的对未来 T-1 时间步的预测图片(视频)。

基于1.5B参数的预训练 Stable Video Diffusion (SVD) 基座模型进行改进,利用 cross-attention 将CLIP 语言特征结合,并调整输出为 256 ∗ 256 256*256 256∗256 的 16 帧视频。
对于 Action Learning,将 TVP 的单步预测视作 Vison Encoder,然后将此作为

最低0.47元/天 解锁文章
456





