SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION
----
自我反思:学会通过自我反思来检索、生成和批评
华盛顿大学§艾伦人工智能研究所 ‡IBM Research AI
摘要
尽管大型语言模型(LLM)具有非凡的能力,但由于它们完全依赖于它们封装的参数知识,因此通常会产生包含事实不准确的响应。检索增强生成(RAG)是一种通过检索相关知识来增强语言模型的临时方法,可以减少此类问题。然而,不加区别地检索和合并固定数量的检索到的段落,无论检索是否必要,或者段落是否相关,都会降低 LM 的多功能性或可能导致生成无用的响应。我们引入了一个名为自反射检索增强生成(SELF-RAG)的新框架,它通过检索和自反射来提高 LM 的质量和事实性。我们的框架训练一个任意的 LM,它可以自适应地按需检索段落,并使用特殊的标记(称为反射标记)生成并反映检索到的段落及其自己的生成。生成反射token使 LM 在推理阶段可控,使其能够根据不同的任务要求调整其行为。实验表明,SELFRAG(7B 和 13B 参数)在各种任务上显着优于最先进的 LLM 和检索增强模型。具体来说,SELF-RAG 在开放域 QA、推理和事实验证任务上优于 ChatGPT 和检索增强的 Llama2-chat,并且相对于这些模型,它在提高长格式生成的事实性和引用准确性方面显示出显着的收益。
1 简介
最先进的LLM继续与事实错误作斗争(Mallen 等人,2023 年;Min 等人,2023 年),尽管模型和数据规模有所增加(Ouyang 等人,2022 年)。检索增强生成 (RAG) 方法(图 1 左;Lewis et al. 2020;Guu et al. 2020)通过相关检索段落增强LLM的输入,减少知识密集型任务中的事实错误(Ram et al., 2023) ;浅井等人,2023a)。然而,这些方法可能会阻碍LLM的多功能性,或者引入不必要的或偏离主题的段落,从而导致低质量的生成(Shi et al., 2023),因为它们不加区别地检索段落,而不管事实基础是否有帮助。此外,不能保证输出与检索到的相关段落一致(Gao 等人,2023),因为模型没有经过明确的训练来利用和遵循所提供段落中的事实。这项工作引入了自我反思检索增强生成(SELF-RAG&#