从 Transformer 到 DeepSeek-R1：大型语言模型的变革之路与前沿突破

最新推荐文章于 2025-11-23 17:56:55 发布

原创

最新推荐文章于 2025-11-23 17:56:55 发布 · 1.7k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #语言模型 #深度学习 #DeepSeek #AIGC #人工智能

本文参考引用：medium-大型语言模型简史

2025年初，DeepSeek开源了一款开创性且高性价比的「大型语言模型」（Large Language Model, LLM） — — DeepSeek-R1，引发了AI领域的巨大变革。

本文回顾LLM的发展历程，以2017年具有革命性意义的Transformer架构为起点。该架构通过「自注意力机制」（Self-Attention）彻底改变了自然语言处理的技术范式。

到了2018年，BERT和GPT等模型崭露头角，显著提升了模型对上下文的理解能力和文本生成能力。

2020年，拥有1750亿参数的GPT-3展示了卓越的「少样本学习」和「零样本学习」能力，进一步拓展了LLM的应用边界。然而，「幻觉」问题 — — 即生成内容与事实不符，甚至出现「一本正经，胡说八道」的现象 — — 成为了一个关键挑战。

2022年，OpenAI采用了「监督微调」（SFT）和「基于人类反馈的强化学习」（RLHF）技术应对这一问题，从而开发了「对话式」模型ChatGPT，引发全球对AI的广泛关注。

到2023年和2024年，像GPT-4和GPT-4o这样的「多模态模型」(Multimodal Model)已经能够无缝整合文本、图像和音频输入，使它们展现出更接近人类的能力，例如「听」、「说」和「看」。

近期推出的OpenAI-o1和DeepSeek-R1「推理模型」（Reasoning Model）在复杂问题解决方面取得了突破，赋予LLM更接近人类「系统2思维」的深度推理能力，标志着人工智能在模拟人类思维模式上迈出了重要一步。此外，DeepSeek-R1以其「超成本效益」和「开源」设计挑战了AI领域的传统规范，推动了LLM的普及，大大促进AI 在各行业的创新应用。

1. 什么是语言模型 (Language Models)？

「语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

1.1 大型语言模型（LLMs）

虽然「语言模型」（LMs）和「大型语言模型」（LLMs）经常被互换使用，但它们在规模、架构和能力上存在差异。LLMs实际上是传统LMs的扩展版本，通常包含数十亿个模型参数。例如，GPT-3拥有1750亿个参数。“LLM”这一术语在2018–2019年随着BERT和GPT-1等模型的出现开始流行，但2020年GPT-3的发布真正展示了它们的潜力，在各种任务中表现出卓越性能，并确立了LLMs作为现代人工智能的基石地位。

1.2 自回归语言模型（Autoregressive Language Models）

大多数LLMs以「自回归方式」(Autoregressive)操作，这意味着它们根据前面的「文本」预测下一个「字」（或token／sub-word）的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系，从而善于「文本生成」。

在数学上，LLM 是一个概率模型(Probabilistic Model)，根据之前的输入文本（w₁, w₂, …, wₙ₋₁）预测下一个字 (wₙ) 的概率分布。这可以表示为：

P(wₙ|w₁,w₂,…,wₙ₋₁)

在文本生成任时，LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。这一过程可以采用不同的策略：既可以选择概率最高的下个字（即贪婪搜索），也可以从预测的概率分布中随机采样一个字，这个随机方法使得每次生成的文本都可能有所不同，这种特性与人类语言的多样性和随机性颇为相似。

1.3 生成能力

LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始，如下图，模型通过迭代「预测下一个字」(Next Word Prediction)，直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答，LLM通过将先前选择的标记添加到输入中进行迭代生成，尤如「文字接龙」游戏。

LLM的文本生成尤如「文字接龙」游戏。

这种生成能力推动了多种应用的发展，例如创意写作、对话式人工智能以及自动化客户支持系统。

2. Transformer革命 (2017)

2017年，Vaswani等人通过其开创性论文《Attention is All You Need》引入了Transformer架构，这标志着自然语言处理（NLP）领域的一个重要转折点。Transformer解决了早期模型（如循环神经网络RNN和长短期记忆网络LSTM）的关键限制。这些传统模型在处理长程依赖性和顺序输入时面临诸多挑战，例如计算效率低下、训练时间过长以及梯度消失问题。这些问题使得基于RNN或LSTM的语言模型难以实现高效且准确的性能。而Transformer的出现克服了这些障碍，彻底改变了NLP领域的研究范式，并为现代大型语言模型的发展奠定了坚实基础。

自注意力和Transformer架构：

自注意力和Transformer架构

2.1 自注意力与Transformer架构的核心创新

1. 自注意力机制 (Self-Attention)：与传统的RNN按顺序逐个处理标记不同，Transformer引入了「自注意力机制」，允许模型动态权衡每个标记相对于其他标记的重要性。这种机制使模型能够专注于输入中与当前任务最相关的部分，从而更好地捕捉全局上下文信息。数学上，「自注意力机制」通过以下公式计算：

其中，Q、K、V是查询(query)、键(key)和值(value)矩阵，dₖ是键向量的维度。自注意力机制不仅支持并行计算，显著加快了训练速度，还增强了模型对全局上下文的理解能力。

2. 多头注意力 (Multi-Head Attention)：多头注意力机制通过多个独立的注意力头并行操作，每个头专注于输入的不同方面。这些注意力头的输出被连接并通过一个线性变换层整合，从而生成更丰富、更全面的上下文表示。这种设计使模型能够从多个角度捕捉复杂的语义关系。

3. 前馈网络(Feed-Forward Network, FFN)和层归一化(Layer Norm)：每个Transformer层包含一个应用于每个标记的前馈网络（FFN），以及层归一化和残差连接。前馈网络由两层全连接层组成，通常使用GELU (Gaussian Error Linear Unit)激活函数。层归一化和残差连接的设计有效稳定了训练过程，并支持构建更深的网络架构，从而提升了模型的表达能力。

4. 位置编码(Positional Encoding)：由于Transformer本身不包含序列信息（即标记的顺序），因此需要通过位置编码来显式地表示词序。位置编码通常采用正弦和余弦函数的形式，将位置信息注入到输入嵌入中。这种方法既保留了顺序信息，又不牺牲并行化的优势。

2.2 对语言建模的影响

可扩展性：Transformer实现了完全并行化的计算方式，这使得在大规模数据集上训练超大模型成为可能。相比传统的RNN和LSTM，Transformer的计算效率更高，能够充分利用现代硬件（如GPU和TPU）的并行计算能力。
上下文理解：自注意力机制能够同时捕捉局部和全局依赖关系，显著提高了模型对上下文的理解能力。这种能力使Transformer生成的文本更加连贯，语义更加准确，尤其在处理复杂任务（如翻译、问答和文本生成）时表现出色。

Transformer的提出不仅是NLP领域的一次重大突破，更是人工智能发展史上的一个重要里程碑。它通过自注意力机制、多头注意力、位置编码等创新设计，解决了传统模型的诸多局限性，为未来的语言建模和深度学习研究开辟了全新的可能性。

3. 预训练Transformer模型时代 (2018–2020)

2017年Transformer架构的引入为NLP的新时代铺平了道路，其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现：BERT和GPT，它们展示了大规模预训练和微调范式的强大功能。

3.1 BERT：双向上下文理解 (2018)

2018年，谷歌推出了BERT（Bidirectional Encoder Representations from Transformers），这是一种使用Transformer编码器(Encoder)的突破性模型，在广泛的NLP任务中取得了最先进的性能。与之前单向处理文本（从左到右或从右到左）的模型不同，BERT采用了双向训练方法，使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示，BERT在文本分类、命名实体识别（NER）、情感分析等语言理解任务中表现出色。