从 BERT 到 GPT—— 基于 Transformer 架构的演变与能力分化

原创已于 2025-09-23 16:34:12 修改 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-09-23 16:33:14 首次发布

6 篇文章

订阅专栏

2 篇文章

订阅专栏

一、Transformer 架构总览

从结构上看，Transformer 由两大核心模块构成

这两个模块可灵活组合：既可以单独使用（如仅用编码器做文本理解，仅用解码器做文本生成），也可协同工作（如编码器 - 解码器组合做机器翻译），构成现代大模型的 “骨架”。

无论是编码器还是解码器，核心都依赖自注意力机制（Self Attention）—— 它能让模型 “聚焦关键信息”（比如读 “小明给小红买冰淇淋” 时，重点关注 “小明 / 小红 / 冰淇淋”），这是 Transformer 比传统模型更懂上下文的关键。

transformer架构图：左边为编码器，右边为解码器

注：图示与原论文Post-LN结构不同，采用Pre-LN设计以缓解梯度消失问题。依据：《On Layer Normalization in the Transformer Architecture》(ICML 2020)

BERT（Bidirectional Encoder Representations from Transformers，2018）由 Google 提出，其核心是堆叠多层编码器，完全舍弃了解码器。

GPT（Generative Pre-trained Transformer，2018）由 OpenAI 提出，基于 Transformer 的解码器部分构建。

💡 关键洞察：BERT 和 GPT 的根本差异，不是 “谁更先进”，而是对 Transformer 模块的不同取舍，反映了 “理解” 与 “生成” 两类任务的本质区别。

MLM（Masked Language Modeling）：
随机遮盖输入中 15% 的词，让模型根据上下文预测被遮盖的词。

例：“我喜欢 [MASK] 天去公园” → 模型预测 “每”。

训练目标：让模型掌握 “词的搭配逻辑”“句子的语义结构”，比如 “喝” 常搭配 “水 / 咖啡”，“首都” 常对应 “国家名称”。

NSP（Next Sentence Prediction）：
判断两个句子是否连续，增强模型对篇章结构的理解。

例：“我喜欢吃草莓”+“它的酸甜味很特别”（连续）；“我喜欢吃草莓”+“今天下雨了”（不连续）。

训练目标：让模型掌握 “文本的叙事逻辑”“因果 / 顺承关系”，比如 “买了食材” 后常接 “开始做饭”，而非 “去看电影”。
⚠️ 注：后续研究（如 RoBERTa）发现 NSP 任务收益有限，许多现代模型已弃用。

下游任务微调（Fine-tuning）：
在少量标注数据上，通过在输出层增加任务相关模块，对整个模型进行端到端微调。

例：若任务是 “情感分析”（判断评论正负）：在 BERT 输出层加 “二分类头”，用标注好的 “好评 / 差评” 数据微调，让模型学会将 “这家店服务超差” 映射为 “负面”，“菜品很惊艳” 映射为 “正面”。

训练目标：让模型从 “通用理解” 转向 “任务专用”，在具体场景中输出精准结果，而非仅具备 “泛泛的语义能力”。

GPT 采用 “写作式” 训练，通过从左到右的文本续写强化生成逻辑：

💡 本质区别：BERT 在 “做填空题和阅读理解”，GPT 在 “写作文和讲故事”。