Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning

UnknownBody

于 2025-12-21 08:30:00 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM RL 文章标签：语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/155933698

LLM Daily 同时被 2 个专栏收录

1759 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

62 篇文章

订阅专栏

文章核心总结与翻译

一、主要内容

本文聚焦于基于模型的强化学习（MBRL）中样本效率不足的问题，提出利用海量真实场景视频（in-the-wild videos）进行无监督预训练，以提升下游视觉控制任务的学习效率。

核心背景

现有MBRL的预训练方法多依赖领域特定或模拟数据，缺乏通用性；直接使用真实场景视频时，因背景复杂、外观多样等上下文因素，导致世界模型难以提取共享的世界知识。
受生物视觉系统启发（80%细胞处理空间细节，20%处理时间变化），需分离上下文（静态信息）和动力学（时间变化信息）建模。

核心方法

IPV范式：提出“In-the-wild Pre-training from Videos”（IPV）范式，使用真实场景视频（如人类交互、驾驶视频）进行无动作预训练，再通过MBRL微调下游视觉控制任务（机器人操作、运动、自动驾驶）。
ContextWM模型：设计“Contextualized World Models”（ContextWM），核心是显式分离上下文与动力学建模：
- 上下文编码器：从随机采样的帧中提取静态信息（纹理、形状等），通过多尺度交叉注意力机制增强图像解码器。
- 潜在动力学模型：专注于捕捉关键时间变化（位置、运动等），避免被低层次视觉细节干扰。
- 双奖励预测器：分别回归探索性奖励（行为学习）和纯奖励（

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。