本文是LLM系列文章,针对《Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models》的翻译。
摘要
大型语言模型(LLM)的发展引起了人们对思维链(CoT)方法的极大关注。,主要是因为它能够增强LLM在需要复杂推理的任务中的能力。此外,CoT方法的重要性扩展到LLM在多模态任务中的应用,如多模态问答。然而,由于多模态示例的固有复杂性,在LLM的多模态推理中选择最佳CoT演示示例的研究较少。在本文中,我们介绍了一种新的方法,通过使用检索机制根据跨模态相似性动态自动选择演示示例来解决这一挑战。该方法旨在通过向LLM提供更相关、更具信息性的示例来完善多模式场景中的CoT推理过程。此外,我们采用分层抽样方法,根据示范实例的类型将其分组,并分别从不同的组中检索实例,以促进示范实例的多样性。通过一系列实验,我们证明了我们的方法显著提高了LLM的性能,在多模态推理任务中取得了最先进的结果。具体来说,我们的方法在ScienceQA数据集上取得了重大进展。虽然我们基于ChatGPT的方法比Chameleon(ChatGPT)高2.74%,准确率为82.67%,但基于GPT4的方法比Chameleon(GPT-4)高0.89%&#