Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models

828 篇文章

已下架不支持订阅

本文介绍了如何通过检索增强机制提升大型语言模型(LLM)在多模态任务中的复杂推理能力。研究提出了动态选择跨模态相关示例的方法,以改善多模态思维链(CoT)推理。通过分层抽样确保示例多样性,实验结果显示,该方法在ScienceQA数据集上显著提升了LLM性能,尤其在基于ChatGPT和GPT-4的模型上取得最优效果。未来研究方向包括检索过程优化及方法在其他多模态任务和专业领域的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models》的翻译。

检索增强的大型语言模型的多模态思维链推理

摘要

大型语言模型(LLM)的发展引起了人们对思维链(CoT)方法的极大关注。,主要是因为它能够增强LLM在需要复杂推理的任务中的能力。此外,CoT方法的重要性扩展到LLM在多模态任务中的应用,如多模态问答。然而,由于多模态示例的固有复杂性,在LLM的多模态推理中选择最佳CoT演示示例的研究较少。在本文中,我们介绍了一种新的方法,通过使用检索机制根据跨模态相似性动态自动选择演示示例来解决这一挑战。该方法旨在通过向LLM提供更相关、更具信息性的示例来完善多模式场景中的CoT推理过程。此外,我们采用分层抽样方法,根据示范实例的类型将其分组,并分别从不同的组中检索实例,以促进示范实例的多样性。通过一系列实验,我们证明了我们的方法显著提高了LLM的性能,在多模态推理任务中取得了最先进的结果。具体来说,我们的方法在ScienceQA数据集上取得了重大进展。虽然我们基于ChatGPT的方法比Chameleon(ChatGPT)高2.74%,准确率为82.67%,但基于GPT4的方法比Chameleon(GPT-4)高0.89%&#

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值