本文是LLM系列文章,针对《LLaVA-CoT: Let Vision Language Models Reason Step-by-Step》的翻译。
摘要
大型语言模型在推理能力方面取得了长足的进步,特别是通过推理时间缩放,如OpenAI的o1等模型所示。然而,当前的视觉语言模型(VLM)往往难以执行系统和结构化的推理,特别是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA CoT,这是一种设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA CoT独立地参与总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化方法使LLaVA CoT能够在推理密集型任务的精度方面实现显著提高。为了实现这一点,我们编译了LLaVA-CoT-100k数据集,整合了来自各种可视化问答源的样本,并提供了结构化的推理注释。此外,我们提出了一种推理时间级波束搜索方法,该方法能够实现有效的推理时间尺度。值得注意的是,LLaVA CoT只有10万个训练样本和一种简单而有效的推理时间缩放方法,不仅在各种多模态推理基准上比其基础模型高出7.4%,而且还超过了更大甚至闭源模型的性能,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-VisionInstruct。代码、数据集和预训练权重可在以下网址公开获取