论文速读|Enhancing LLM Reasoning via Vision-Augmented Prompting
论文信息:
简介:
这篇论文试图解决的问题是大型语言模型(LLMs)在处理包含视觉和空间线索的推理问题时的局限性。尽管基于LLMs的推理框架(如Chain-of-Thought及其变体)在纯文本任务上取得了显著进展,但它们主要关注语言维度,导致在涉及视觉和空间解释的任务(例如几何问题或网格谜题)上存在局限。本文的动机源于人类认知系统中处理语言和视觉空间信息的两个专门子系统,这两个子系统激活不同的大脑区域,并经常协同工作以进行认知推理。作者提出,模仿人类这种双模态处理能力可以显著提升LLMs的推理能力。因此,本文提出了一种新的双模态推理框架,旨在通过结合视觉增强提示(Vision-Augmented Prompting,简称VAP)来增强LLMs的推理能力。