本文是LLM系列文章,针对《Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering》的翻译。
摘要
最近,大型语言模型(LLM)已被用于基于知识的视觉问答(VQA)。尽管之前的研究结果令人鼓舞,但之前的方法促使LLM直接预测答案,忽略了中间的思维过程。我们认为,现有的方法不能充分激活LLM的能力。我们提出了一个名为PLRH的框架,该框架通过基于知识的VQA的基本原理启发式来提示LLM。PLRH提示具有思维链(CoT)的LLM生成逻辑推理启发式,即中间思维过程,然后利用逻辑推理启发式来激励LLM预测答案。实验表明,我们的方法在OK-VQA和A-OKVQA上分别比现有的基线高出2.2和2.1以上。
1 引言
2 相关工作
3 方法
4 实验
5 结论
我们提出了一个名为PLRH的新框架,该框架为LLM提供了基于知识的VQA的基本原理启发式方法。该框架分为三个阶段:首先,提示LLM为所有训练样