GPT系列详解：从GPT-1到GPT-3-优快云博客

本文链接：https://blog.youkuaiyun.com/yujianmin1990/article/details/129445511

本文详细介绍了GPT系列的发展历程，从GPT-1的无监督预训练思想，到GPT-2的更大规模数据集和参数量提升，再到GPT-3的1750亿参数与情境学习能力。GPT模型在自然语言处理任务上表现出色，尤其是在zero/few-shot学习上。尽管存在连贯性、偏见和推理成本等问题，GPT-3展示了大模型的潜力和局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

对于目前火热的ChatGPT，总是想多聊些，那就写点其前身的知识点吧。

GPT概述

GPT（Generative Pre-trained Transformer）是OpenAI公司开发的关于自然语言处理的语言模型。这类模型在知识问答、文本摘要等方面的效果超群，更牛逼的是这居然都是无监督学习出来的模型。在很多任务上，GPT模型甚至不需要样本微调，就能在理解和执行效果上获得比当时最好的监督学习模型更好的性能。
我们就此捋一下GPT三代的历程：

GPT-1 Improving Lanugage Understanding by Generative Pre-training
GPT-2 Language Models are UnsupervisedMultitask Learners
GPT-3 Language Models are Few Shot Learners

提前假设大家都是了解NLP的术语和Transformer结构的，不清楚的可以自行补充知识。
咱们一篇一篇地捋一捋，分别搞清楚基本目标和概念、训练的数据集、模型结构和应用、效果和评估，也就差不多了。先上个一揽子对比图，快乐下。
在这里插入图片描述

GPT-1代

在此之前，大部分SOTA的NLP模型都是在特定任务上做有监督训练的，比如情感分类、文本含义等。通常来说，有监督是天然带有如下两个缺陷：

需要大量的标签数据来学习特定的任务，而这个打标签的过程是漫长而消耗财力的。
特定任务专项训练，也带来了没法向其他任务场景迁移和拓展的问题。
而这篇文章，提出了一个思路：用无标签数据来学习生成模型，然后根据下游任务做微调使用，比如像是分类、情感分析等。

无监督学习作为有监督微调模型的预训练目标，因此被称为生成预训练。
Unsupervised learning served as pre-training objective for supervised fine-tuned models, hence the name Generative Pre-training.