程序员必看！DeepEyes V2让AI从“工具狂魔“变“智能决策者“-优快云博客

🧠 一句话总结：这篇论文聚焦 “Agentic 多模态大模型” 的核心突破，提出了能主动调用工具、动态整合推理的 DeepEyesV2。DeepEyesV2 通过 “冷启动微调 + 强化学习” 两阶段训练，整合代码执行、网页搜索等工具，实现了感知、搜索、推理的跨能力协同，在真实世界理解、数学推理、搜索密集型任务中表现远超现有模型，为智能体化多模态模型的构建提供了完整方案。

DeepEyes V2 放弃了第一版使用的自定义 crop tool 的方式，拥抱了 Thyme 的方案：使用 code 生成 image operation，然后接入 text search、image search 的外部工具。

一个核心观点：

直接 RL：模型在训练早期会尝试生成代码，但代码 bug 很多。很快，模型就“学废了”，它会退化为完全不使用工具，只给出一个简短的直接答案，以此绕过工具使用。这也是 thyme 中观察到的一个重要现象。
RL + 工具使用奖励：给“使用工具”这个行为本身一个额外奖励导致了hack：模型确实学会了每次都生成一个代码块，但代码块里全是无意义的“占位符注释”，而不是真正可执行的代码

使用 RL 做 outcome + format 的 reward，一些有意思的实验发现：

现有模型难以真正融合感知、搜索与推理。当任务同时要求视觉感知、网络搜索和多步推理时（即“集成型”任务），所有模型表现都大幅下滑——例如 Gemini 在这类任务上准确率从 46% 骤降到 27.8%，说明当前模型还无法像人类一样协同调动多种能力。
纯文本搜索带来的提升比图像搜索更大。这说明当前模型在理解或利用图像搜索返回的视觉结果方面仍有明显短板，还不能高效地将“搜图”结果转化为有用证据。
仅用“感知类”（如裁图）或“推理类”（如计算）数据训练，效果有限甚至互相干扰。但一旦加入长链式推理（Long CoT）数据——即模型一步步写出完整思考过程的样本——数学推理和工具使用能力就显著提升。这说明：强大的思维能力是有效使用工具的前提。
训练初期（冷启动后），模型几乎对每个问题都调用工具，显得“过度依赖”。但经过强化学习后，工具调用频率明显下降（见 Figure 7）。模型学会了判断：简单问题直接回答，复杂问题才用工具。这说明 RL 不仅没让模型“更爱用工具”，反而让它更聪明、更高效。
模型会根据任务类型自动选择工具。平均工具调用次数减少，但调用次数的方差反而变大
仅用“感知”或“推理”类 RL 数据训练，会导致其他能力退化。只有同时包含感知、推理、搜索三类数据，模型才能在所有任务上均衡提升。

一、Agentic 多模态大模型

二、DeepEyes V2 的关键设计

1.两阶段训练 pipeline

冷启动阶段（SFT）：解决 “不会用工具” 的问题。

构建高质量数据集：筛选基础模型解不出、且用工具能提升准确率的样本，涵盖感知、推理、搜索任务，还加入长链推理（CoT）轨迹。
用优质轨迹微调：让模型学习基础工具使用模式（如裁剪、写代码、搜信息）。

数据特点：

多样任务：感知（找物体）、推理（做计算）、搜索（查资料）
难度过滤：只保留基础模型做不对的题目
工具有效性：确保用了工具真的能提分
长思维链：包含详细的逐步推理过程

强化学习阶段（RL）：解决 “用不好工具” 的问题。

奖励机制极简：只看 “答案准确率” 和 “格式正确性”，不做复杂奖励设计。
动态交互环境：让模型自主决定 “何时调用工具、调用哪种工具”，学会组合工具（如先裁剪图像再搜索）。

2.工具整合能力

支持三类核心工具：

代码执行：图像裁剪、数值计算、图像标注等（如用 Python 裁剪目标区域）。
图像搜索：通过 SerpAPI 检索视觉相似结果。
文本搜索：查询最新 / 外部知识（如股票数据、药品名称）。

任务自适应调用：感知任务用图像操作，推理任务用数值计算，搜索任务结合文本 / 图像搜索。

3.DeepEyes V2 的推理示意

4.全新基准：RealX-Bench

设计原则：真实场景、跨能力整合、可自动验证。
涵盖 5 大领域：日常生活、媒体、体育、知识、游戏，包含 300 个 QA 对。
评估维度：感知（精准定位视觉元素）、推理（多步逻辑）、搜索（获取外部证据）、整合（同时需要三类能力）。

三、实验结果

任务类型	具体基准	DeepEyesV2效果
真实世界理解	V*, HRBench等	超过Qwen2.5-VL-32B（更大的模型）
数学推理	MathVerse	比基础模型高7.1分
搜索任务	MMSearch	63.7% vs 前最佳53.8%
三能力协同	RealX-Bench	显著领先开源模型

结果还发现，RL 训练后，工具调用更加智能了，工具调用频率经过训练反而下降了，因为模型学会了"能不用就不用"，决策更聪明。

1.错误分析

模型会犯三种错

执行错误：选对了工具但操作失误（如裁错区域）
选择错误：该用图片搜索却用了文本搜索
解析错误：工具返回结果了但理解错了

四、核心洞察

数据质量比数量重要：冷启动数据需满足 “多样性”（覆盖多任务）和 “长 CoT”（强化推理能力），才能让模型学好工具。
极简 RL 更有效：不用复杂奖励，聚焦 “结果导向”，模型反而能学会灵活组合工具。
跨能力整合是关键：真实世界问题往往需要 “感知 + 搜索 + 推理” 联动，这是现有模型与人类的核心差距。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述