当VLM学会临时抱佛脚：清华新框架推理能力超越GPT-4o！-优快云博客

作者 | Kangan Qian 来源 | 深蓝AI

点击下方卡片，关注“自动驾驶之心”公众号

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

本文只做学术分享，如有侵权，联系删文

摘要：近年来，视觉语言模型（VLM）在自动驾驶领域展现出巨大潜力，通过其出色的高级场景理解和推理能力，有望简化传统依赖人工设计的感知、预测和决策组件。然而，现有方法在不确定性处理、泛化能力和可解释性方面仍面临挑战。

如何让自动驾驶VLM不仅能看、能理解，还能像人类一样思考并调用工具解决复杂问题？

近日，一项名为 AgentThink 的开创性工作横空出世，它首次将动态、代理式的工具调用与链式思维（CoT）推理深度融合，为自动驾驶任务带来了统一的AI框架。该研究通过创新的数据生成流程和两阶段训练范式，使模型能够像智能体一样，在复杂驾驶场景中动态决策并按需调用外部工具，极大地提升了自动驾驶VLM的智能与鲁棒性，并在多个指标上取得了SOTA性能。

论文题目：AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

论文作者：Kangan Qian, Sicong Jiang, Yang Zhong, Ziang Luo, Zilin Huang, Tianze Zhu, Kun Jiang, Mengmeng Yang, Zheng Fu, Jinyu Miao, Yining Shi, He Zhe Lim, Li Liu, Tianbao Zhou, Hongyi Wang, Huang Yu, Yifei Hu, Guang Li, Guang Chen, Hao Ye, Lijun Sun, Diange Yang

论文地址：https://arxiv.org/pdf/2505.15298

—

引入

近年来视觉语言模型发展迅猛，衍生出来了诸多应用和产品，并且均取得了非常亮眼的成绩。目前有很多工作都将预训练的大语言模型或者视觉语言模型与自动驾驶任务相结合，简化了原有依赖人工设计的感知、预测和决策组件，充分发挥大模型出色的高级场景理解、常识推理和决策能力。通过利用互联网级别的数据为自动驾驶模型提供更加丰富的语义表示和更加强大的场景泛化能力。

基于视觉语言模型的自动驾驶工作可以总结成图1所示的模型范式。

图1：自动驾驶任务中不同视觉语言模型使用方法对比

如图1(a)所示，当前的不少工作将自动驾驶任务转化成了视觉问答问题，并采用SFT对基础视觉语言模型进行微调，使其可以实现指定的目标识别、风险预测以及运动规划等子任务。然而这类方法通常将推理流程视为静态的输入到输出映射，忽略了现实世界决策中至关重要的不确定性、复杂性和可验证性。因此，它们常常存在泛化能力差、输出结果失真和可解释性有限的问题。

因此，目前不少改进工作考虑将思维链加入到VLM模型中，如图1(b)所示。但这些方法中一类采用严格的链式思维模板，通过牺牲灵活性来提升结构化逻辑。另一类方法采用开放式的推理格式，但存在过度拟合，从而表现出浅显或者冗余的推理步骤。

针对上述提到的相关问题，本文提出了VLM与自动驾驶任务统一结合的框架，称之为AgentThink。相关的实验结果表明，AgentThink在回答精度和推理得分上实现了最佳的性能，超越了现有的方法。

图2：提出的AgentThink在DriveLMM-o1数据集上的实验结果

本文的主要贡献如下：

本文提出了AgentThink，首个将动态、代理式工具调用集成到自动驾驶任务的视觉语言推理中的框架；
本文开发了可扩展的数据生成流程，通过集成的工具使用和推理链生成结构化、可自验证的数据；
本文引入了一个结合SFT和GRPO的两阶段训练流程，使模型能够学习何时以及如何调用工具来增强推理性能；
本文设计针对自动驾驶工具调用的全新评估指标，涵盖工具选择、集成质量以及推理工具的协调。

—

算法模型与实验细节

本文提出的AgentThink算法框架的整体流程如图3所示。

图3：AgentThink算法模型整体框架图

数据生成管线

作者认为，可靠的自动驾驶推理类似于人类的决策，不仅需要内部知识，还可以在需要时调用外部工具。因此，本文引入了一个工具增强数据生成流程。

具体而言，本文开发了一个专用工具库，包含视觉信息、检测、预测、占用和建图五个核心模块。通过这些工具库共同支持为各种感知和预测任务提供全面的环境信息。

此外，作者采用GPT-4o完成初始的工具集成推理步骤和答案，该过程通过提示模板来进行引导。具体而言，对于一个预训练好的VLM模型，输入图像为，任务指令为，在时刻的推理步骤可以表述成如下的形式。

每一个推理步骤包含五个关键元素，分别是选择工具、生成的子问题、不确定性标志、猜测的答案、下一个动作选择。重复上述流程，为每个问答对采样条结构化推理轨迹。

最后，一个单独的LLM审核每条数据的准确性和逻辑一致性，并删减步骤不匹配或结论不受支持的样本，从而生成一个高质量的语料库，将明确的工具使用与连贯、可验证的推理相结合。

两阶段的训练流程

本文为了进一步优化模型，采用了基于GRPO的强化学习微调，有效地利用结构化奖励。具体而言，为了指导模型实现准确、可解释且工具感知的推理，本文设计了一个结构化的奖励函数，包含三个主要部分，如图4所示。

图4：用于工具增强推理的GRPO奖励

这种结构化的奖励设计比通用的相似性指标提供了更有针对性和可解释性的监督。它使 GRPO能够优化推理过程的质量以及模型在需要时调用工具的能力。

在执行模型的推理过程中，本文通过让视觉语言模型动态地从预定义库中访问工具来收集信息，从而促进逐步推理。其整体流程如图5所示。

图5：模型生成结构化推理链式流程图

同时，作者还引入了三个评估指标来评估模型在推理过程中的工具利用率，如图6所示。

图6：工具利用率的评估指标

—

实验

本文在DriveLMM-o1以及DriveMLLM数据集上开展了相关实验研究，证明本文提出的AgentThink算法模型的有效性。图7展示了不同算法模型在DriveLMM-o1数据集上的实验结果汇总情况。

图7：不同算法模型在DriveLMM-o1数据集上的实验结果汇总

通过实验结果可以看出，AgentThink在所有评价指标上均实现了最佳的表现性能。除了推理和准确性指标外，AgentThink在风险评估、场景理解等方面的指标也要始终优于其他模型。

这些性能上的提升反映了AgentThink能够利用动态工具调用和反馈，更有效地将其推理应用于视觉情境。

此外，作者也进行了相关的消融实验来验证不同奖励信号和训练阶段的效果。相关的实验结果指标汇总在图8中。

图8：AgentThink消融实验结果汇总

通过消融实验结果可以看出，提出的各个模块均在一定程度上提高了基线模型的性能。同时，当将三种奖励要素融合在一起后，取得了最佳的效果，极大地提升了推理质量和答案准确性，从而凸显了使用工具和将推理置于视觉语境中的重要性。

作者在DriveMLLM数据集上进行了zero-shot和one-shot的相关实验来验证AgentThink模型的泛化性，相关的实验结果如图9所示。

图9：Zero-shot和One-shot的实验结果汇总

通过实验结果可以看出，AgentThink在zero-shot和one-shot的实验设置下均实现了SOTA的性能，展现出了很好的泛化能力。

作者将相关的推理过程进行了可视化，更加直观的展示了AgentThink的性能，如图10所示。

图10：Zero-shot的实验结果比较汇总

—

总结

本文提出了首个将CoT链式推理与代理式工具调用紧密融合的统一自动驾驶框架AgentThink。通过借助可扩展的工具增强数据集和带有GRPO流水线的两阶段SFT，AgentThink在DriveLMM-o1数据集上实现了79.68%的推理得分和71.35%的答案准确率。除了提升性能之外，AgentThink还通过使每个推理步骤都基于工具输出，展现出更强的可解释性，从而实现更安全、更稳健的以语言模型为中心的驾驶任务。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com