文章主要内容总结
本文系统阐述了多模态推理领域从“思考图像”(Think about Images)到“用图像思考”(Think with Images)的范式转变,核心内容包括:
-
范式转变:传统多模态推理依赖文本思维链(CoT),将视觉视为静态输入;新范式则将视觉作为动态认知工作空间,通过中间视觉步骤实现推理,更接近人类认知模式。
-
三阶段框架:
- 阶段1:工具驱动的视觉探索:模型调用预设工具(如目标检测、OCR)主动分析图像,代表方法包括基于提示(如MM-REACT)、监督微调(如LLaVA-Plus)和强化学习(如Chain-of-Focus)。
- 阶段2:程序化视觉操作:模型生成代码(如Python)自定义视觉操作,实现灵活的复合任务,代表方法包