大模型的能力
一、 概述
本节主要是通过对GPT-3论文中的基准测试深入研究,从而获得关于GPT-3更深程度的认识
我们应该知道,GPT-3的结果参差不齐:
- 在某些任务上,比如语言建模,GPT-3大幅度超越了现有技术的最高水平;
- 在其他任务上,GPT-3与训练有素,拥有大量标签数据的系统竞争时,却明显落后。
造成上述现象的原因:
- GPT-3并未明确针对这些任务进行训练,它只是作为一个语言模型,被训练来预测下一个词。(也即是一个通用的模型,并未对特定问题进行特殊的训练,没有过度拟合)
想在其他任务上表现良好:
- 要利用大量的标签数据来适应GPT-3,并超越当前的技术水平
二、 语言模型的适应性:从语言模型到人物模型的转化
语言模型 p p p是一种对token序列 x 1 : L x_{1:L} x1:L的分布
语言模型既能用来评估序列(获得特定序列出现的概率),也能够生成序列(即根据前文生成下文)
适应:指代将语言模型转化为任务模型的过程
- 需要以下两个输入:
- 任务的自然语言描述
- 一组训练实例(输入-输出对)
- 进行适应的两种方式:
- 训练(标准的有监督学习)
- 训练一个新模型,使其能将输入映射到输出
- 方式:
- 通过创建一个新模型并利用语言模型作为特征(探针法)
- 或者从现有的语言模型出发,根据训练实例进行更新(微调)
- 或者在这两者之间找到平衡(轻量级的微调)
- 提示(上下文)学习
- 根据对任务的描述建一个或一组提示/上下文信息,将其输入到语言模型中以获取基于该任务的生成结果。
- 分类(提示/上下文信息的数量)
- 零样本学习(Zero-shot):提示/上下文信息的数量为0,模型直接基于对任务的理解输出结果。
- 单样本学习(One-shot):提示/上下文信息的数量为1,一般来说模型基于1个例子可以更好的理解任务从而较好的生成结果。
- 少样本学习(Few-shot):提示/上下文信息的数量大于1,大模型可以看到更丰富的例子,一般来说获得比单样本学习更好的效果。
- 训练(标准的有监督学习)
- 关于GPT-3相关任务的关注点:
- 定义:任务是什么,以及其动机?
- 适应:我们如何通过提示将任务简化为语言模型?
- 结果:与该任务的最先进模型相比,GPT-3的定量性能如何?(结果评估)
1 Language Modeling
-
定义:
- 原理是什么?
- 对于任意的词序列,它能够计算出这个序列是一句话的概率
- 原理是什么?
-
适应:
- 询问语言模型会给这段文本分配什么概率?
-
结果:
- 困惑度(Perplexity)
- 可以解释为模型在预测下一个词时的平均不确定性(即衡量模型下一个词预测准确程度的指标)
- 简单来说,如果一个模型的困惑度较低,那么它在预测下一个词的时候就会更加准确。
- 困惑度(Perplexity)
-
语言模型会犯的两种错误以及对应错误困惑度的处理方式
-
召回错误:
-
语言模型未能正确地为某个词符分配概率值。
-
这种情况下,困惑度是毫不留情的。
p
-
-