近年来最重要的发展之一是大型语言模型 (LLM) 的出现。LLM 一次处理所有顺序输入,并依靠自注意力来关注输入的小而重要的部分,这使得它们不同于一次处理一个单词的先前架构。
BERT:来自变压器的双向编码器表示
BERT 是一种双向变换器模型,在进行预测时会同时考虑左右上下文。它基于 transformer 架构,彻底改变了自然语言理解任务。BERT 在语言建模和下一句预测方面进行了预训练,可以进行微调以针对特定任务进行优化。尽管微调 BERT 比针对每个特定任务从头开始构建模型要好得多,但它仍然需要大量特定于任务的训练示例。
GPT-3:生成式预训练 Transformer 3
GPT-3 比 BERT 大得多,并且在 45TB 的数据上进行训练,而 BERT 为 3TB,并且具有 125M 到 175B 的参数,而 BERT 有 3.4 亿个参数。GPT-3 可以用更少的努力进行少样本预测。一些演示任务应如何完成的示例足以让 GPT-3 生成有凝聚力的、有意义的输出。自从 GPT-3 抓住了民粹主义的想象力,涌现的新 LLM 的数量就增加了。这些模型通过缩放模型的大小(深度和宽度)并增加来自不同数据源的训练标记的数量来进一步改进。
PaLM:路径语言模型
Google 宣布了具有 8B、62B 和 540B 参数以及 780B 令牌的 Pathwa