【论文解读】System 2 Attention提高大语言模型客观性和事实性

原创

于 2023-12-13 11:09:15 发布 · 1.6k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #科技

文章介绍了一种名为System2Attention(S2A)的方法，用于大型语言模型中，通过自然语言推理来解决注意力机制的问题，尤其在处理包含意见或不相关信息的任务上。实验表明，S2A提高了事实性和客观性，减少了虚假性，展示了显著的性能提升。

一、简要介绍

本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相关工作。基于transformer的大语言模型（LLM）中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中，这将对下一token的生成产生不利影响。为了帮助纠正这些问题，论文引入了System 2 Attention（S2A），它利用LLM的能力，用自然语言进行推理，并遵循指示，以决定要处理什么。S2A重新生成输入上下文以使输入上下文只包含相关部分，然后再处理重新生成的上下文以引出最终响应。在实验中，S2A在包含意见或不相关信息的三个任务：QA、数学单词问题和长形生成上优于标准的基于注意力的LLM，其中S2A增加了事实性和客观性，减少了虚假性。

二、研究背景

大型语言模型（LLM）具有很强的能力，但它们仍然容易犯简单的错误，这些错误似乎显示出较弱的推理能力。例如，他们可能会被不相关的上下文做出错误判断，或输入提示固有的偏好或意见，在后一种情况下表现出一个称为追随性的问题，即模型与输入一致。

虽然一些方法试图通过添加更多的监督训练数据或强化学习策略来缓解这些问题，但论文假设潜在的问题是transformer本身的构建方式所固有的，特别是它的注意机制。也就是说，软注意倾向于将概率分配给大部分上下文，包括不相关的部分，倾向于过度关注重复的标记，部分原因是其训练方式，部分原因是位置编码机制也倾向于将上下文视为词袋。

在这项工作中，论文因此研究了一种完全不同的处理注意机制的方法：通过使用LLM作为自然语言推理器来执行注意。具体来说，论文利用LLM遵循指令的能力，并提示它们生成它们应该注意的上下文，这样它就只包含不会扭曲其推理的相关材料。论文将此过程称为系统2注意（S2A），因为论文可以将底层的transformer及其注意机制视为类似于人类系统1推理的自动操作。系统2，分配注意力活动，在需要刻意注意一个任务的时候接管人类活动，特别是在系统1很可能犯错误的情况下。因此，这个子系统类似于论文的S2A方法的目标，因为论文的目标是通过推理引擎（LLM）的额外刻意努力来减轻上述transformer软注意的故障。

论文描述了系统2的注意机制的类，提供了进一步的动机，并在下文中详细介绍了几个具体的实现。在下文中，论文通过实验表明，与标准的基于注意力的LLM相比，S2A可以产生更真实、更少固执己见或谄媚的生成。特别是在修改后的TriviQA数据集上，包括问题中的干扰物意见，与LLaMa-2-70b聊天相比，S2A将事实性从62.8%增加到80.3%，而对于包含干扰物输入情绪的长期生成的论证，客观性增加了57.4%，并且在很大程度上不受插入意见的影响。最后，对于GSM-IC中包含主题无关句子的数学词汇问题，S2A将准确率从51.7%提高到61.3%。

三、System 2 Attention

3.1 Motivation

大型语言模型通过预训练的过程获得了优秀的推理能力和大量的知识。他们的下一个词的预测目标要求他们密切关注当前的上下文。例如，如果在一个上下文中提到了某个实体，那么同一实体很可能稍后会在同一上下文中再次出现。基于transformer的LLM能够学习这些统计相关性，因为软注意机制允许它们在他们的上下文中找到相似的单词和概念。虽然这可能会提高下一个单词的预测精度，但它也使LLM容易受到其上下文中的虚假相关性的不利影响。例如，众所周知，重复短语的概率随着每次重复而增加，从而产生一个正反馈循环。将这个问题推广到所谓的非平凡重复，模型也倾向于在上下文中重复相关主题，而不仅仅是特定的标记，因为潜在表示可能预测来自相同主题空间的更多标记。当上下文包含模型复制的观点时，这被称为追随性，但一般来说，论文认为这个问题与上面讨论的任何一种上下文有关，而不仅仅是与意见一致的问题。

图1显示了一个伪相关的示例。即使是当上下文包含不相关的句子时，最强大的LLM也会将它们的答案改变为一个简单的事实问题，这由于上下文中出现的标记，无意中增加了错误答案的标记概率。在这个例子中，添加的上下文似乎与这个问题相关，因为两者都是关于一个城市和一个出生地的。但随着更深入的理解，很明显，所添加的文本是无关紧要的，因此应该被忽略。