本文是LLM系列文章,针对《The Strong Pull of Prior Knowledge in Large Language Models and
Its Impact on Emotion Recognition》的翻译。
摘要
与传统的基于梯度的微调相比,上下文学习(ICL)已经成为一种强大的范式,可以在不更新模型参数的情况下使用大型语言模型(LLM)执行自然语言任务。ICL的承诺是,LLM可以以很小的成本适应以具有竞争力或最先进的水平执行当前任务。LLM以这种小样本方式执行任务的能力取决于它们对任务的背景知识(或任务先验)。然而,最近的工作发现,与传统学习不同,LLM无法完全整合来自对比任务先验的演示的信息。这可能导致次优水平的性能饱和,尤其是对于情绪识别等主观任务,由于人类注释的可变性,从文本到情绪的映射可能会有很大差异。在这项工作中,我们设计了实验并提出了测量方法,以明确量化LLM先验的代理的一致性及其对后验的影响。我们发现LLM在情感识别中具有强大但不一致的先验,这使它们的预测僵化。我们还发现,模型越大,这些影响就越强。我们的研究结果表明,当使用具有较大LLM的ICL进行预训练域之外的以影响为中心的任务时,以及在解释ICL结果时,需要谨慎。