北大、阿里等提出VLM-R³: 区域识别、推理与优化 — 增强多模态思维链的视觉交互新范式

本文分享北大、阿里、极氪的研究人员在视觉语言模型领域的新工作 VLM-R³: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought 。

img

  • 论文链接:https://arxiv.org/abs/2505.16192
  • 作者: Chaoya Jiang ,Yongrui Heng ,Wei Ye ,Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

研究背景

多模态大语言模型(MLLMs)最近已成为一种强大的范式,在跨不同模态(主要是视觉和语言)的理解和生成内容方面展现出非凡能力。O1、QvQ和Gemini 2.5等模型在MMMU、MathVista和ScienceQA等广泛任务上展示了令人印象深刻的性能。促成其高级推理能力的关键因素是整合了思维链(CoT)提示,这种方法引导出逐步推理路径,通常能产生更准确和可解释的输出。

尽管取得了这些进展,当前MLLMs在复杂推理过程中与视觉信息交互的方式仍存在关键限制。大多数采用CoT的现有方法主要将推理步骤限制在文本领域,仅在视觉输入上进行初始静态基础处理。这种范式在需要贯穿整个推理链对特定视觉区域进行动态、迭代和细粒度交互的场景中表现不足。图1

如上图所示,示例包括对照图像细节顺序验证假设、跟踪视觉线索中的对象状态、或理解复杂的空间关系——所有这些都需要更主动和适应性的视觉基础机制。

开发能在推理过程中具备图像"再次观察"能力的MLLM面临两个显著障碍:区域基础学习。模型必须学习在哪里聚焦以及如何基于部分文本推理转换基础区域(裁剪、缩放)。贡献度分配。简单地监督最终答案并不能教导模型所选区域是否实际上有助于正确推理,这使得完善视觉查询策略变得困难。

为弥补这一关键差距,本文做出两项主要贡献。首先,引入视觉-语言交错推理(VLIR),这是一个开创性的数据集,经过精心策划,支持MLLMs在交错文本-图像CoT推理方面的发展。VLIR提供视觉区域定位、图像裁剪指令和语义增强提示的显式注释,所有这些都嵌入在多步推理叙述中。其次,基于此,该文提出VLM-R³(具有区域识别和推理的视觉语言模型),这是一个设计用来掌握这种复杂推理风格的新框架。VLM-R³使用独特策略训练,结合了在VLIR数据集上的冷启动微调和新颖的区域条件强化策略优化(R-GRPO)。这使VLM-R³能够学习何时何地在图像中查看、如何处理定位的视觉证据(例如通过裁剪或请求增强),以及如何将这些动态获取的信息整合到其不断发展的推理链中。

创新框架:VLM-R³

本文推出 VLM-R³ (Visual Language Model with Region Recognition, Reasoning, and Refinement),一个旨在赋予MLLM在推理过程中主动"反复查看"并精细化利用图像信息的创新框架。VLM-R³的核心能力体现在其"R³"机制:

  • 区域识别 (Region Recognition):模型能够自主判断何时需要额外的视觉证据
  • 区域推理 (Region Reasoning):模型能够智能决定在图像中的何处进行定位和聚焦
  • 区域优化 (Region Refinement):模型能够将定位到的子图像内容(例如通过裁剪、缩放等变换获得)无缝地融入到其交错进行的视觉-文本思维链中VLM-R³ 模型架构图

核心技术突破:区域条件强化策略优化 (R-GRPO)

VLM-R³的强大能力源于提出的区域条件强化策略优化(Region-Conditioned Reinforcement Policy Optimization, R-GRPO)训练范式。该方法基于Group Relative Policy Optimization (GRPO)进行了关键性适配,其"区域条件"特性体现在策略模型 显式地依赖于当前的视觉状态,包括动态整合的区域性视觉证据。

R-GRPO旨在解决模型学习"何时看"、"何处看"以及如何有效整合新视觉信息的复杂决策过程。其核心机制包括:

动态视觉信息获取策略

R-GRPO通过强化学习优化一个策略,该策略决定在推理的每一步是否需要以及在何处获取新的视觉信息(通过生成边界框指令)。

精细化的奖励机制

为了引导模型学习理想的行为,文中设计了多维度奖励信号,包括:

  • 准确性奖励 ():对最终答案的正确性进行奖励
  • 格式遵循奖励 ():确保输出符合预定义的标签格式
  • 区域有效性奖励 ():对生成语法正确且非冗余的边界框指令给予奖励
  • 推理长度奖励 ():鼓励模型生成合理的推理步骤

VLIR数据集:关键支撑

数据集分析数据集分析

为了有效地训练和引导VLM-R³掌握这种高级的交互式推理能力,该文构建了视觉-语言交错基本原理(Visuo-Lingual Interleaved Rationale, VLIR)语料库。VLIR是首个专为训练和评估MLLM在具有显式区域级交互的交错视觉-文本CoT推理方面量身定制的基准数据集。

该数据集提供了在多步推理叙事中嵌入的视觉区域定位、图像裁剪指令和语义增强线索的明确标注,为模型学习区域选择和文本论证提供了宝贵的步骤级监督。

实验设置与结果

实验概述

VLM-R³的评估涵盖了六个公开基准数据集,全面测试了模型在不同场景下的表现能力:

  • 通用视觉-语言理解:MME和MMMU数据集
  • 复杂数学推理:MathVista和MathVision数据集
  • 科学问答能力:ScienceQA数据集
  • 文档理解能力:DocQA数据集

此外,还通过HallucinationBench评估了模型的幻觉率,以检验模型输出的可靠性。

对比模型分类

实验中将VLM-R³与三类多模态模型进行对比:

  1. 无显式推理能力的开源基线模型

    • Qwen2.5-VL 7B(也作为主要基线模型)
    • InternVL2.5-8B
    • LLaVA-Next 8B
  2. 闭源非推理系统

    • Gemini-2 Flash
    • GPT-4o
  3. 配备专用推理模块的模型

    • LLaVA-CoT 11B
    • Mulberry-Qwen2VL 7B
    • R1-onevision 7B

为了探索性能上限,还将结果与更大规模的闭源模型o1进行了比较。

性能表现

实验结果实验结果

基于Qwen2.5-VL 7B架构构建的VLM-R³模型在所有基准测试中均优于其基础模型,特别是在需要精确视觉推理和细粒度理解的领域中取得了显著提升:

  • MathVista:相比基线提升2.2%(70.4% vs. 68.2%)
  • MathVision:显著提升5.1%(30.2% vs. 25.1%),突显了该文方法在需要仔细关注视觉细节的数学推理任务中的有效性
  • ScienceQA:大幅提升14.33%(87.90% vs. 73.57%),进一步证明了VLM-R³在科学推理中的卓越能力,其中视觉证据的动态定位至关重要

与其他专注于推理的开源模型(如Vision-R1和Mulberry)相比,VLM-R³在MathVista上展现出竞争力,并在HallusionBench上超越了Mulberry(62.0% vs. 54.1%),表明模型在避免视觉幻觉方面具有更高的可靠性。

为什么交错推理链与视觉区域定位如此有效?

可视化分析可视化分析

为了理解VLM-R³方法的有效性,对交错推理链与视觉区域定位和传统文本推理链进行了对比分析。上图展示了两种方法在回答相同视觉查询时的注意力分布模式。相关分析揭示了一个关键发现:在传统方法中,当图像放置在序列开始处时,随着推理链的推进,对视觉信息的注意力显著减弱。

如上图下半部分所示,一般的多模态大语言模型在推理过程中逐渐失去视觉上下文,导致错误推断。相比之下,VLM-R³通过动态定位和整合相关视觉区域,在整个推理过程中保持持续的视觉注意力。

注意力热图显示,推理过程后期生成的标记仍然与裁剪的视觉区域保持强烈的注意力连接。这种区域特定的注意力使模型能够正确识别蓝色物体为雨伞。

这种深入的视觉区域探索能力使VLM-R³能够捕捉到传统方法容易忽视的细微视觉细节,从而在需要持续视觉关注的复杂推理任务中取得更好的表现。实验结果表明,将视觉注意力机制与推理过程紧密结合是提高多模态模型表现的关键因素。

样例分析

推理样例1推理样例1

推理样例2推理样例2

最后,以上给出了VLM-R³的真实推理样例,如上图所示,VLM-R³根据推理需要,通过对图像区域的定位,分割等在思维链中引入关键视觉区域,形成了图文交错推理链,有效地提升了模型推理的效果。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值