文献阅读：Language Models are Few-Shot Learners

最新推荐文章于 2025-04-12 22:47:37 发布

Espresso Macchiato

最新推荐文章于 2025-04-12 22:47:37 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：文献阅读文章标签： GPT3 Zero-Shot Prompt LLM Few-Shot

本文链接：https://blog.youkuaiyun.com/codename_cys/article/details/128891670

文献阅读专栏收录该内容

55 篇文章

订阅专栏

GPT3是OpenAI提出的一个175B参数的自回归语言模型，通过增加规模和训练数据质量，展示出强大的无监督学习能力。文章介绍了GPT3在结构上与GPT2相似，但规模显著扩大，且采用Few-Shot学习方法提升模型效果，无需微调即可适应多种任务。尽管存在生成文本的通顺度而非内容相关性的局限，但GPT3证明了参数量的增加可带来性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文献阅读：Language Models are Few-Shot Learners

文献链接：https://arxiv.org/abs/2005.14165

1. 内容简介

这篇文献就是大名鼎鼎的GPT3的工作。

在这篇文章当中，OpenAI提出了GPT3模型，将自回归语言模型的参数量从前作GPT2的1.5B直线提升到了175B，并且同步增大了对应的训练数据的数量和质量。

最终，训练得到的GPT3模型的效果也算是轰动一时，直到现在都很难有模型可以超越。

更值得一提的是，OpenAI在模型的训练范式方面似乎坚持地走自回归语言模型的预训练模型，然后在范式选择似乎非常不喜欢预训练+finetune的方式，而是希望直接一步到位的给出一个通用的万能模型，而到了GPT3的规模，这种愿景多少有了一些可能性。

在此基础上，OpenAI给出了few-shot的方式，使得模型在不经过任何finetune的情况下也能够获得效果上的提升。

2. 模型 & 实验

1. 模型 & 训练

下面，我们首先来看一下GPT3模型的模型设计以及训练方式。

首先，关于模型本身，按照文献中的描述，GPT3其实与GPT2并没有结构上的差别，差别仅在于规模以及训练数据上面。

给出文中关于模型参数以及训练数据的图表如下：

在这里插入图片描述

可以看到：

无论是在模型层数还是在唯独上面，GPT3较之GPT2都有明显的提升，且训练数据无论是在质量、数量还是diversity上面都同样明显增加。

2. 调用方法

而关于模型的使用方法，如前所述，OpenAI还是比较坚持走通用大模型路线的，不太喜欢预训练+finetune的常规范式，文中给出的理由是finetune很可能导致模型的过拟合破坏预训练学习到的信息。

而如果不通过finetune又想要获得更好的模型效果，文中开创性地提出了few-shot的应用方式，即通过几个实例来暗示语言模型的后续生成方向。

在这里插入图片描述

3. 模型效果

这篇文献对于GPT3的效果进行了极其细致的分析，从各个任务均进行了考察，毕竟文献的正文都一共41页，不过结果大都也是些平凡的结论，这里就不全部摘录了，就偷个懒，只在这里稍微整理一下总体的结论：

随着参数总量的持续增加，模型效果基本上是不断在提升的；
175B的GPT3模型在各类任务当中都能够获取很好的效果，且在无监督模型当中基本上都表达了最优的效果，说明GPT3模型不但学到了东西，且在各类任务当中都具有很好的表达，确实具备有通用大模型的潜力。
样例文本作为输入是可以优化模型的表达的，具体表现在one-shot的结果普遍优于zero-shot的结果，而few-shot的结果又进一步超过了one-shot的结果。