LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

本文是LLM系列文章,针对《LLaVA-CoT: Let Vision Language Models Reason Step-by-Step》的翻译。

摘要

大型语言模型在推理能力方面取得了长足的进步,特别是通过推理时间缩放,如OpenAI的o1等模型所示。然而,当前的视觉语言模型(VLM)往往难以执行系统和结构化的推理,特别是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA CoT,这是一种设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA CoT独立地参与总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化方法使LLaVA CoT能够在推理密集型任务的精度方面实现显著提高。为了实现这一点,我们编译了LLaVA-CoT-100k数据集,整合了来自各种可视化问答源的样本,并提供了结构化的推理注释。此外,我们提出了一种推理时间级波束搜索方法,该方法能够实现有效的推理时间尺度。值得注意的是,LLaVA CoT只有10万个训练样本和一种简单而有效的推理时间缩放方法,不仅在各种多模态推理基准上比其基础模型高出7.4%,而且还超过了更大甚至闭源模型的性能,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-VisionInstruct。代码、数据集和预训练权重可在以下网址公开获取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值