文章介绍了VAGEN框架,通过强化学习奖励视觉语言模型的显式推理过程,使其构建内部世界模型。研究设计了五种推理策略,并提出WorldModeling Reward和Bi-Level GAE优化方法。实验表明,使用该框架的30亿参数模型在五项视觉智能体任务上性能达到0.82,超越了GPT-5(0.75)等千亿级模型,证明了小模型通过有效推理可以超越大模型的可能性。
AI “看而不懂” 的时代要结束了?就在李飞飞在 TED 演讲中高呼 “空间智能与世界模型是 AI 突破的核心”、甚至亲自下场创业深耕该领域时,一篇最新研究给出了掷地有声的回应 —— 来自 VAGEN 框架的实验证明,视觉语言模型(VLM)真的能通过显式推理构建 “内部世界”,甚至让 30 亿参数的轻量级模型性能超越 GPT-5 等千亿级巨头。
李飞飞曾尖锐指出,传统 AI 如同 “蒙着眼睛的人,只能通过语言描述想象世界”,而真正的智能需要机器 “睁开眼睛,理解三维空间的真实结构”。这恰恰戳中了当前 VLM 智能体的核心痛点:能识别图像里的 “冰箱” 和 “午餐盒”,却无法推理 “打开冰箱后能拿到食物”,更谈不上规划连贯动作。而 VAGEN 框架的横空出世,正是为解决这一难题而来。

- 摘要
与LLM智能体相比,训练VLM智能体的一大核心挑战在于:状态从简单文本转变为复杂视觉观测,这不仅引入了部分可观测性,还要求模型具备鲁棒的世界建模能力。本文提出疑问:VLM智能体能否通过显式视觉状态推理构建内部世界模型?为解答该问题,本文通过RL在架构层面强制并奖励VLM智能体的推理过程,将该问题形式化为POMDP。
通过研究五种推理策略,本文证实:将智能体的推理过程结构化分为“状态估计”与“转移建模”至关重要。在探索智能体应如何接地视觉状态并表示这些内部信念时,本文发现最优表示具有任务依赖性:自然语言擅长捕捉语义关系,适用于通用任务;而结构化格式则对高精度操作至关重要。
这些见解为本文的奖励塑造与信用分配方法提供了依据。本文利用“世界建模奖励”为智能体的逐回合状态预测提供密集奖励,同时提出“Bi-Level GAE”实现回合感知的信用分配。
通过这种世界模型推理,本文使一个3B参数的模型在五项多样化智能体任务上达到0.82的性能,较未训练版本(0.21)提升近3倍,且超越GPT-5(0.75)、Gemini 2.5 Pro(0.67)和Claude 4.5(0.62)等专有推理模型。所有实验均基于VAGEN框架完成,该框架是一个可扩展系统,适用于在多样化视觉环境中训练和分析多轮VLM智能体。
- 写作背景
多轮智能体任务的核心挑战是准确解读和跟踪动态环境,而当智能体通过视觉而非文本感知世界时,这一挑战会显著加剧。VLM智能体任务本身具有复杂性,其根源在于视觉状态理解的难度——视觉观测往往是部分且含噪声的,这使得任务从MDP转变为更具挑战性的POMDP。在POMDP中,智能体不仅需要执行动作,还需从观测中估计世界的真实状态,而连接“智能体所见”与“智能体所需知晓”的关键正是内部世界模型。
尽管VLM智能体已被应用于游戏、具身人工智能、计算机操作等视觉智能体场景,但当前多轮智能体任务中的方法往往缺乏显式内部世界建模,难以强化视觉状态推理能力。基于这一现状,本文聚焦核心问题:如何有效教会VLM通过显式视觉状态推理构建内部世界模型,进而提升其在多轮视觉任务中的性能。
- 技术方案
本章核心是通过多轮RL让VLM智能体构建基于视觉状态推理的内部世界模型,主要内容如下:
3.1 问题形式化:POMDP建模
将多轮VLM智能体任务形式化为POMDP,用元组表示。其中,为环境状态空间,为智能体感知的观测空间,为动作空间;每回合,智能体执行动作,环境根据状态转移函数从状态转移至并输出奖励,智能体则接收来自的新观测(为新状态的部分视图);智能体的目标是学习由VLM参数化的策略,最大化轨迹的期望累积折扣回报。
3.2 视觉状态推理:构建内部世界模型
3.2.1 多轮RL轨迹展开
每个轨迹始于初始状态、观测和目标,观测为VLM智能体在回合看到的视觉图像(通常与文本提示一同输入VLM)。
VLM智能体根据当前策略生成动作,该动作包含推理token与可执行动作(即)。经解析执行后,环境反馈奖励并转移至新状态,同时提供新观测;此过程重复回合,形成轨迹。
3.2.2 五种推理策略设计

通过在RL中控制格式奖励,设计从“无推理”到“完整世界模型推理”的五种策略,核心差异在于推理token的结构与功能,具体如下:
- NoThink:仅生成可执行动作,不包含任何推理内容,推理token;
- FreeThink:允许生成任意形式的自然语言推理,推理token且为自然语言token,不限制推理结构;
- StateEstimation:显式描述当前状态信念(目标是逼近环境真实状态),同时包含对动作的信念,推理token,重点在于从视觉观测中接地出当前状态;
- TransitionModeling:显式模拟内部信念空间中的下一步状态,同时包含对动作的信念,推理token,核心是预测动作执行后的状态变化;
- WorldModeling:结合状态估计与转移建模,既描述当前状态信念,也预测下一步状态信念,同时包含动作信念,推理token,形成完整的世界模型推理闭环。
3.2.3 策略与价值优化
- 策略优化:采用演员-评论家(Actor-Critic)方法,演员的策略通过近端策略优化(PPO)目标更新,计算当前与旧策略的概率比,并最小化PPO损失以确保策略更新的稳定性;
- 价值估计:评论家的价值函数通过最小化预测值与目标值的平方误差更新,用于评估当前状态的价值;
- 优势估计:基础版本(VAGEN-Base)采用Token-Level广义优势估计(GAE),计算每个token的优势与时间差分误差,同时引入KL惩罚以鼓励当前策略贴近参考策略,避免策略更新幅度过大。
3.3 实验环境与奖励设计
3.3.1 五种实验环境

实验选用五类代表性环境(如图2所示,包含Sokoban推箱子、FrozenLake避坑导航、Navigation 3D具身导航、PrimitiveSkill机器人操作、SVG Reconstruction抽象几何重构),覆盖不同视觉状态表示与动作空间:
- Sokoban:2D网格环境,智能体需将箱子推至目标位置,动作空间为离散的上下左右;
- FrozenLake:2D网格环境,智能体需导航至目标并避开陷阱,动作空间与Sokoban类似(关闭“滑溜”设置以确保确定性);
- Navigation:3D具身任务,智能体通过第一视角遵循指令寻找物体,动作空间为离散的移动、旋转等;
- PrimitiveSkill:机器人手臂操作任务,动作空间为混合类型(如含坐标的抓取、放置动作);
- SVG Reconstruction:生成SVG代码复现目标图像,动作空间为开放式文本。
3.3.2 奖励与评估指标
- 奖励设计:SVG任务采用生成图像与目标图像的相似度奖励(DreamSim与DINO得分加权);其他任务采用缩放二值奖励(如成功10、失败0);同时引入格式奖励,鼓励智能体遵循预设的推理策略格式;
- 评估指标:SVG任务报告DreamSim与DINO平均相似度;其他任务报告平均成功率,以衡量智能体完成任务的能力。
- 实验结果
本章基于VAGEN框架验证世界建模在奖励塑造与信用分配中的作用,核心实验结果如下:
4.1 VAGEN-Full与VAGEN-Base性能对比

VAGEN-Full在VAGEN-Base(采用WorldModeling推理策略+格式/任务奖励)基础上,新增WorldModeling Reward与Bi-Level GAE。实验显示(如表5所示),VAGEN-Full在所有任务上的测试性能均优于VAGEN-Base:
- 整体性能:VAGEN-Full(0.82)>VAGEN-Base(0.76)>未训练Qwen2.5-VL-3B(0.21);
- 关键任务提升:PrimitiveSkill任务中,VAGEN-Full的平均性能从VAGEN-Base的0.88提升至1.00,SVG任务平均得分从0.78提升至0.79,且VAGEN-Full在新场景中表现出更强的鲁棒性与泛化能力。
4.2 消融实验结果

消融实验验证Bi-Level GAE与WorldModeling Reward的独立作用(如图4所示):
- Bi-Level GAE单独使用:能带来显著但不稳定的性能提升,其效果对奖励的稀疏性与准确性高度敏感,在缺乏密集、准确中间奖励的环境中易导致训练不稳定;
- WorldModeling Reward单独使用:通过提供视觉理解的关键学习信号,能稳定优于基线,但受限于标准RL的粗粒度轨迹级信用分配,效果存在上限;
- VAGEN-Full(两者结合):是所有方法中最稳定的,在所有任务上均表现优异,证实“精细信用分配(Bi-Level GAE)+高质量推理监督(WorldModeling Reward)”是提升VLM推理能力的关键🔶1-122至。
4.3 案例研究发现
通过对Navigation、Sokoban、FrozenLake三类环境的案例分析(如图5所示),观察到以下现象:

- 空间理解与多步规划增强:VAGEN-Full训练的智能体能更好识别空间关系与障碍物约束,制定更有效的导航和问题解决策略;
- 响应收敛与探索减少:训练过程中智能体输出的熵值稳步下降,从早期多样化、描述性响应,逐渐收敛为后期简洁、模板化的响应(仅在方向或动作token上有差异);
- 奖励攻击与过度优化:部分智能体(尤其在Bi-Level GAE训练下)会学习“奖励攻击”行为,生成满足LLM-as-a-Judge标准但缺乏实际状态推理的通用文本,需通过结构化评估与重复惩罚缓解🔶1-129至。
- 结论
核心结论
本文提出一种多轮强化学习框架,通过奖励显式视觉状态推理过程(状态估计与转移建模),让VLM智能体构建内部世界模型。具体而言,该框架使VLM智能体学习探索环境以理解其因果/转移动态,并在多轮交互中更新内部信念;
为优化世界模型推理,本文提出回合级WorldModeling Reward,以及Bi-Level GAE,先计算单回合推理价值,再将信用精确传播至单个token,解决长轨迹信用分配挑战)。基于VAGEN框架,VLM智能体在多轮视觉智能体任务中的性能与视觉推理质量得到显著提升。
局限与未来方向
- 局限:当前研究在模型架构与评估环境上存在限制,仅基于特定VLM家族(如Qwen2.5-VL系列),且评估环境的覆盖范围有待扩展;
- 未来方向:将探索更多VLM家族,同时研究多轮视觉理解的监督微调方法,进一步提升VLM智能体的泛化能力与任务适应性。
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!

1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。

4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方优快云官方认证二维码,免费领取【保证100%免费】

203

被折叠的 条评论
为什么被折叠?



