点击下方卡片,关注“大模型之心Tech”公众号
今天大模型之心Tech为大家分享一篇大模型相关论文。本文深入探讨了多模态推理模型中推理能力与幻觉之间的平衡问题。如果您有相关工作需要分享,请在文末联系我们!
本文只做学术分享,如有侵权,联系删文
论文作者:Chengzhi Liu等
作者单位:加州大学、斯坦福大学
项目主页:https://mlrm-halu.github.io/
前言
自从以DeepSeek-R1为代表的推理LLM进入研究者广泛讨论范围后,多模态推理模型也在推理LLM的基础上,数月内掀起了狂热浪潮,各种工作层出不穷(PS:这里可查看我们社区为大家汇总的多模态推理模型相关工作这里查看「多模态推理模型」热门工作汇总(上)~;盘一盘「多模态推理模型」近期热门工作(下)~)。
今天就和大家聊一聊多模态推理模型里一个超有意思的现象——当模型“大脑高速运转”时,会不会反而“眼神变差”呢?
这正是这篇来自加州大学和斯坦福大学研究团队的论文《More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models》想带我们探索的问题:推理能力变强,为啥幻觉也跟着变多了?
当多模态大模型“想太多”会怎样?
现在的大模型特别厉害,为了搞定复杂问题,它们会开启深度思考模式:比如在数学题里层层推导,在科学问题中步步论证,输出的推理链条越来越长,简直像个话痨学霸🔍。这种模式放到多模态模型里(比如看图说话+逻辑推理),也让它们在数学解题等任务中表现亮眼——毕竟“想得深”好像就能“答得准”嘛!

图1:(a) 推理模型与非推理模型在感知任务上的输出示例。红色高亮部分表示视觉幻觉。与非推理模型相比,多模态推理模型在推理过程中通常更易放大幻觉。(b) 不同模型在RH-Bench数据集的推理和感知任务上的性能表现。性能更优的模型位于右上角。不同规模的基线非推理模型通常表现出较弱的推理能力和较少的幻觉,而推理模型则呈现相反的趋势。
但等等,这里有个隐藏bug:当模型忙着“写小作文”般的推理时,会不会忘了看“图”?比如图1a里的例子,明明是道“图中有没有棒球”的视觉题,推理模型却巴拉巴拉说了一堆棒球比赛的常识,最后得出“没有球”的错误答案😢。而旁边的非推理模型直接瞅图认球,反而答对了!这说明:推理链越长,可能越容易跑偏去依赖语言常识,把眼睛看到的证据抛在脑后。
为啥推理模型会“看走眼”?作者扒开模型的“注意力机制”一看,发现了关键问题:
视觉注意力暴跌:推理模型对图片里的视觉元素(比如棒球、人物动作)关注度超低,反而把更多注意力放在“指令词”(比如“问题”“分析”)上🔍。这就像你做阅读理解时,光顾着看问题里的关键词,却没仔细读文章内容,自然容易答错。
推理链越长,眼神越飘:当模型开始“滔滔不绝”地推理时,视觉注意力会进一步下降,变成“语言先验依赖症”——比如图1b里的实验显示,推理模型在“感知任务”上的幻觉率比非推理模型高一大截,妥妥的“想太多,看太少”!
这时候问题来了:传统的“准确率”“幻觉率”只能测某个固定长度下的表现,但推理长度明明是个“动态变量”呀!比如有的题需要短平快的判断,有的题需要长推理,一刀切怎么行?
解决方案:不如设计一个能跟踪推理长度变化的指标吧! 于是,RH-AUC诞生了——它就像一个“动态平衡仪”,能画出“推理长度vs.感知准确率”的曲线,算出曲线下面积(AUC),数值越高,说明模型在不同推理长度下越能“稳得住视觉基本盘”。
同时,研究团队还搞了个RH-Bench基准测试,里面有1000道题,涵盖各种多模态任务,专门考察模型“推理与幻觉的平衡术”。比如图1b里的对比就很直观:大模型(右上角)普遍比小模型平衡得更好,而纯推理模型(如R1-OneVision)虽然推理强,但感知幻觉也多,像个“偏科生”。
推理模型的“幻觉制造机”体质?
接下来专门深挖一个核心问题:为啥推理模型比非推理模型更爱“胡编乱造”? 一起看看作者怎么用实验抓现行
作者拉来8个当红推理模型(比如R1-OneVision、MM-Eureka),又找了它们的“非推理版双胞胎”(比如Qwen2.5-VL Base)。
然后把它们扔进五个“幻觉考场”:MMVP、MMEval-Pro、VMCBench……这些考场专门考模型“看图说话准不准”,比如“图里有没有杯子”“有几个人”这种纯视觉题🔍。

图2:推理模型与非推理模型在五个感知基准测试上的对比。结果分30亿参数模型(左)和70亿参数模型(右)展示。分数越高表示幻觉越少。
结果如图2所示,推理模型在雷达图里围成了“小圈圈”——每个指标都比非推理模型差,意味着幻觉率全面超标!而且不管是30亿参数还是70亿参数的模型,全都“中招”。这说明:幻觉增加不是因为模型太小太笨,而是推理这个“技能点”自带的副作用😱!
现在问题来了:幻觉多,是训练方法的锅吗?作者揪出两种主流训练模式:
纯强化学习(RL-only):比如Ocean-R1,直接用奖励机制让模型学推理。
监督微调+强化学习(SFT+RL):比如OpenVLThinker,先“手把手教”再“放开练”。

图3:基准模型(Base)、仅强化学习(RL)和监督微调+强化学习(SFT+RL)在四个感知基准测试上的性能对比。
实验结果如图3所示,在四个感知基准测试中,非推理基线模型(Base)永远是“幻觉最少”的学霸,而SFT+RL组居然比RL-only组更差!比如在MMVP测试里,SFT+RL的准确率比RL-only低了好几个点。这说明:
监督微调可能是把“双刃剑”:虽然教会了模型推理格式,但也可能让它养成“机械模仿”的习惯,比如不管图里有没有,先按“果汁摊=有杯子”的套路答,反而忽略真实视觉信号📊。
RL-only更“灵活”:纯强化学习的模型没被“先入为主”的规则绑住,反而能更专注看图像,比如Ocean-R1在判断“鞋带是否系好”时,直接盯着图中“正在系”的动作,避免了SFT+RL模型“脑补已系好”的错误(图8c)。
为了让我们更直观感受幻觉咋来的,作者放了两种常见幻觉模式。

图4:多模态推理模型中观察到的两种常见幻觉模式。(a)对应由视觉误识别引起的幻觉,而(b)反映了由推理偏差导致的幻觉。幻觉片段以红色高亮显示。
1. 视觉误识别型幻觉(图4a)
推理:图中是四个穿潜水服的人,非推理模型一眼认对,推理模型却数成三个。
幻觉:推理模型的注意力像“散光眼”,在人物区域飘来飘去,没聚焦到关键细节(比如第四个人的手臂),导致漏数👁️❌。
2. 推理偏倚型幻觉(图4b)
推理:图里是果汁摊,没杯子,但推理模型说“有”,理由是“摊位通常有杯子”。
幻觉:模型的注意力全扑在“果汁摊”的语言标签上,启动“常识联想”模式,直接跳过“看图找杯子”的步骤,属于“思维短路走捷径”🤯。
这俩案例告诉我们:推理模型的幻觉,要么是“眼神差”,要么是“想得歪”,本质都是视觉注意力不足+语言依赖过度的双重暴击!
因此,一堆实验实锤了一个扎心事实:只要开启推理模式,模型就容易“飘”——不管怎么训练,推理模型在纯视觉任务上就是比非推理模型更容易胡说八道。但是,作者也发现了一些“曙光”:
模型越大,“知错能改”能力越强:70亿参数的模型比30亿的幻觉率低,可能是因为“记忆力”更好,能记住更多视觉细节。
训练数据“质量>数量”:后面会提到,用对类型的数据(比如多视觉+少先验)能缓解幻觉
模型的“注意力跑偏”日记——为什么越推理越“瞎”?
一、3.1 视觉注意力不足:模型的“偏科”毛病
想象一下,课堂上老师同时发了一份文字题和一张图片,有的学生只盯着文字猛写,有的学生边看图片边答题。推理模型就像前者,是个严重的“语言偏科生”!🔍
注意力分配大对比:作者对比了推理模型(R1-OneVision)和非推理模型(Qwen2.5-VL)的注意力分布,发现推理模型对“视觉tokens”(比如图片里物体的特征)的关注度超低,越深层的神经网络越不看图片,反而把更多注意力砸在“指令tokens”(比如“问题”“分析”这些词)上📊。
举个栗子🌰:当被问“意大利面上有奶酪吗?”,非推理模型会像“视觉侦探”一样,在图片里搜索奶酪的痕迹;而推理模型却像“语言书呆子”,直接调用“意大利面通常配奶酪”的常识,可能眼睛都不看图片一眼😵!

图5:推理模型与非推理模型之间的注意力分配和视觉接地情况。推理模型中视觉注意力的减少会放大视觉幻觉。
热力图暴露真相:图5b的视觉注意力热力图更直观——非推理模型的注意力像“聚光灯”,稳稳打在食物区域;推理模型的注意力却像“散光灯”,到处乱晃,甚至飘到无关的背景上。这就像你用手机拍照时没对焦,拍出来全是模糊的,能不出错吗?
二、3.2 推理链越长,眼神越飘:“过度思考”的副作用
如果说注意力不足是“基础病”,那“超长推理链”就是“加重剂”!作者搞了个“正常思考vs过度思考”实验:
正常思考:模型按常规长度推理,比如“灰色墙壁是否存在”,会先看图片确认颜色,再回答✅。
过度思考:强迫模型生成超长推理链(比如用“潜在状态控制”技术拉长思考步骤),结果模型的注意力直接从“墙壁”飘到了“用户指令的最后几个字”,甚至忽略最明显的视觉证据❌!

图6:推理模型在不同推理长度下的注意力转移。在正常推理情况下,模型按预期生成输出,而在过度推理时,推理长度通过潜在状态控制(第4.1节)进行调整。更长的推理链进一步加剧了对视觉信息注意力的下降,并转向关注语言先验。
如图6所示,过度思考时,模型的注意力热力图里,“图像token”区域颜色变淡(关注度下降),“指令token”区域颜色变深(关注度暴增)。这就像你写作文时,为了凑字数硬加废话,结果反而跑题了~
总结:推理能力和视觉 grounding 就像坐在跷跷板两头,一方上升,另一方就会下降。具体来说:
推理模型的“致命伤”:对视觉信息的关注度天生低于非推理模型,而且推理链越长,这种“忽视”越严重。
幻觉的源头活水:注意力跑偏导致模型无法准确“锚定”图片内容,只能靠语言先验“脑补”答案,幻觉就这么诞生了~
推理长度的“ Goldilocks原则”——多长才算“刚刚好”?
先前我们已经确认了:推理模型的“话痨属性”(长推理链)容易导致幻觉,但“沉默寡言”(短推理链)又可能推理不够深。那么问题来了:推理链多长才是“ Goldilocks的粥”——不烫不冷,刚刚好?
一、如何控制模型的“思维长度”?三种“刹车油门”指南
为了让模型“想多少就想多少”,作者发明了三种“思维长度控制器”,听起来很像汽车的驾驶模式有没有?🚗
Token预算强制(Token Budget Forcing)
原理:给模型下“死命令”——生成推理链不能超过N个Token(类似“作文必须800字以内”)。
效果:简单粗暴,但可能“一刀切”,比如让需要长推理的数学题答不全😢。
测试时扩展(Test Time Scaling)
原理:分阶段思考——先写个“草稿版”短推理,再用“Wait”之类的提示词触发“续写模式”,像写小说先列大纲再细化📝。
效果:灵活但容易“跑题”,续写时可能偏离前面的视觉证据。
潜在状态控制(Latent State Steering)
原理:直接操纵模型的“思维神经”——通过分析长/短推理的隐藏状态差异,用参数α控制推理长度(α越大,想得越长)。
类比:像给模型的“思考齿轮”加润滑油或刹车——想让它快就快,想让它停就停⚙️。
高级操作:公式(1)和(2)看起来复杂,其实就是算“长思维”和“短思维”的“神经信号差”,再用α调整,有点像给模型做“思维按摩”~
二、4.2 动态平衡:推理长度和性能的“过山车”定律
用这三种控制器做实验后,作者发现了一个反直觉的现象:推理长度和模型性能的关系不是“越长越好”,而是像坐过山车——先升后降,有个最佳点!🎢
1. 非单调效应:过犹不及的“思维陷阱”
图7:多模态推理模型在不同推理长度下的推理-幻觉平衡。推理任务的思考长度控制在[0-600]个标记范围内,幻觉任务的思考长度控制在[0-300]个标记范围内,这对应推理需要更长的链条而幻觉需要更短的链条。
实验结果:如图7所示,当推理长度从0开始增加时,数学题(推理任务)的准确率先涨后跌,而视觉题(感知任务)的准确率先跌后涨?不,其实两者都是先升后降!
比如MathVista(数学题)在推理长度适中时准确率最高,太长了反而因为“想太多绕晕了”而答错;
MMHalu(幻觉测试)在短推理时幻觉最少,太长了就会“脑补过度”😵。
类比:像 Goldilocks吃粥——太烫(长推理)和太凉(短推理)都不好,温的(适中长度)才最合适。
2. 任务专属“最佳思维长度”
数学题vs视觉题:
数学题需要“长思考”:比如几何证明题,短推理可能漏步骤;
视觉题需要“短平快”:比如“图中有没有猫”,看一眼就够了,想太多反而被语言常识带偏🐱。
数学题的最佳长度在400-600Token,而视觉题的最佳长度在100-300Token,说明任务类型决定思维节奏!
3. 传统指标的“瞎子摸象”问题
痛点:传统的“准确率”只测一个固定长度下的表现,就像盲人摸象——摸到腿说象是柱子,摸到耳朵说象是扇子。
案例:一个模型在短推理时幻觉率低(扇子),长推理时推理强(柱子),但用平均准确率算下来可能和另一个“中庸”模型差不多,根本看不出它的动态优势📊。
解决方案:这就是为啥需要RH-AUC!它能把整个“过山车曲线”变成一个数值,全面评估模型在不同长度下的平衡能力~
总结:没有万能的“最佳推理长度”,只有“因题而异”的灵活策略。比如:
做数学题时,允许模型“慢慢想”,但要防止“想歪”;
做视觉题时,强迫模型“快快看”,避免“脑补剧情”。
如何给模型的“推理-幻觉平衡术”打分?——RH-AUC与RH-Bench登场!
现在我们知道了推理模型的核心难题是“推理强则幻觉多,感知准则推理弱”。那么该如何解决“怎么公平评估这种动态平衡”的问题呢?作者提出了新的基准和评估方式,一起来看看吧。
一、考试大纲:RH-Bench基准测试的“魔鬼题库”
首先是新基准RH-Bench,这个题库堪称多模态模型的“全能挑战王”:
题量与构成:1000道题,分成两半——500道推理题(数学、科学等),500道感知题(视觉判断、幻觉检测)。
推理题来自MathVision、ScienceQA等“硬核题库”,比如“根据图片解物理题”;
感知题来自MMHalu、VMCBench等“找茬题库”,比如“图中有没有不存在的物体”🔍。
题型创新:每种题都有选择题和开放题,开放题还得请“GPT-4o考官”打分——比如回答“图中有几个人”,误差超过1个就算幻觉,低于3分就判“不及格”❌。
数据洁癖:所有答案都经过人工审核,杜绝“题库漏洞”,堪称“高考级严谨”!
二、评分黑科技:RH-AUC的“动态平衡计算法”
接下来是新的评估方法RH-AUC,这个指标就像给模型做“体能测试”,看看它在不同“思维强度”下的综合表现:
原理简单版:
让模型在不同推理长度(比如100/300/500Token)下答题,记录每个长度的“推理准确率”和“感知准确率”;
把这些数据画成曲线(推理准确率为横轴,感知准确率为纵轴);
用“梯形面积法”算出曲线下的面积(AUC),面积越大,说明模型在“推理强的时候感知没崩,感知准的时候推理也在线”,平衡能力Max!📊
表1:模型在RH-Bench上的性能对比,包括任务特定准确率和RH-AUC分数。Perc.和Reas.分别表示视觉感知和推理的训练数据。
三、考试成绩分析:谁是“平衡小能手”?
用RH-Bench和RH-AUC考了一圈模型后,作者发现了三个“考试规律”:
1. 模型越大,越能“稳得住”
数据说话:7B模型(如Ocean-R1-7B)的RH-AUC普遍比3B模型高,比如0.63 vs 0.53。
原因猜想:大模型的“神经元网络”更复杂,能同时记住更多视觉细节和推理步骤,像“学霸一边背公式一边画图”,两不误~🎓
2. 训练方式决定“答题风格”
RL-only vs SFT+RL:纯强化学习的模型(如Ocean-R1)比“先监督后强化”的模型(如OpenVLThinker)RH-AUC更高。
图8:(a) 30亿参数和70亿参数模型在RH-Bench推理任务中不同推理长度下的准确率趋势。更大的模型通常在不同推理长度下表现出更稳定的性能。(b) 基于RH-AUC指标对比SFT+RL和仅RL训练范式,箭头方向表示SFT+RL相对于仅RL训练的推理长度增加情况。仅RL训练倾向于生成更简洁的推理链,从而实现更好的感知幻觉平衡。(c) 仅RL与SFT+RL模型的案例对比。SFT+RL模型常引入僵化的模仿推理路径,限制了视觉推理的灵活性。
案例:图8c里,SFT+RL的OpenVLThinker看到“系鞋带”的图,非要用“常识”推断“已经系好”,而RL-only的Ocean-R1直接看“动作进行时”,答对!
结论:监督微调像“应试训练”,容易让模型“套路化”;纯强化学习更像“素质教育”,鼓励模型“灵活应变”~
3. 数据质量>数据数量
反常识发现:用20k视觉数据+63k推理数据的Ocean-R1,比用80k视觉数据+77k推理数据的R1-OneVision表现好(0.63 vs 0.46)!
原因揭秘:Ocean-R1的数据是“分阶段投喂”——先练推理,再练感知,像“先学走路再学跑”;而R1-OneVision可能数据混杂,导致模型“消化不良”😵。
小惊喜:只学6k数学题的MM-R1,RH-AUC居然0.57,说明领域专精数据比大杂烩更有效!
结语
多模态推理模型的长推理链虽能提升复杂任务性能(如数学推理),但会导致视觉注意力下降,加剧对语言先验的依赖,从而放大视觉幻觉。例如,在感知任务中,推理模型常因忽视图像细节而基于常识生成错误答案(如图1a、4b所示)。
评估工具的创新
提出RH-AUC指标:量化推理长度与感知准确性的动态关系,通过计算推理-幻觉平衡曲线下面积,系统性评估模型在不同推理深度下的可靠性。
发布RH-Bench基准:包含1000例多模态任务(推理与感知任务各500例),支持对模型推理能力与幻觉风险的综合诊断。
关键结论
模型规模影响平衡能力:更大模型(如7B)通常在推理与感知间表现出更好的稳定性。
训练范式的差异:纯强化学习(RL-only)模型比“SFT+RL”模型更易生成简洁推理链,减少幻觉风险。
数据质量优先:推理-幻觉平衡更依赖训练数据的类型(如领域特异性)而非数量。
研究局限性
模型架构的局限性
仅基于Qwen2.5-VL backbone进行实验,结论对其他多模态架构(如LLaVA、Flamingo)的泛化性有待验证。
训练数据的分析限制
对训练数据影响的结论基于现有模型的观察性分析,缺乏控制变量的再训练实验,无法完全揭示因果关系。
未来研究方向
论文指出,后续可探索更广泛的模型架构、设计因果性实验验证数据影响,并开发动态调整推理长度的机制,以进一步提升多模态模型的可靠性。
知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,欢迎扫码加入一起学习一起卷!