7.1 引言
在自然语言处理任务中,虽然语言模型(例如GPT-3)在很多任务上能够仅通过提示(prompting)进行上下文学习,但它们并不适用于所有下游任务。特别是当下游任务的格式和主题与语言模型的训练数据存在差异时(例如,自然语言推理NLI、问题回答QA等),就需要对模型进行适配(adaptation)。适配帮助模型调整以应对特定任务的数据分布、领域知识或格式要求。
7.1.1 为什么需要Adaptation?
语言模型通常是任务不可知的(task-agnostic),即它们通过广泛的训练数据获得对多种任务的处理能力,但无法针对特定任务进行优化。下游任务与原始训练任务之间的差异主要表现在以下几个方面:
- 格式差异:例如,自然语言推理(NLI)任务涉及两个句子的比较以进行逻辑推理,而语言模型通常用于生成下一个标记,这两者存在本质差异。
- 主题差异:某些下游任务专注于特定领域(如医疗或法律),这些任务可能包含模型未见过的术语和概念。
- 时间差异:语言模型的知识通常在训练时已固定,无法动态更新,因此可能缺乏最新的信息。
因此,适配任务对于语言模型来说至关重要,它通过调整模型以满足特定任务的要求,从而提升模型在这些任务上的表现。
7.1.2 通用的Adaptation配置
在语言模型适配过程中,通常会涉及以下几个步骤:
- 预训练语言模型(