本文参考引用:medium-大型语言模型简史
2025年初,DeepSeek开源了一款开创性且高性价比的「大型语言模型」(Large Language Model, LLM) — — DeepSeek-R1,引发了AI领域的巨大变革。
本文回顾LLM的发展历程,以2017年具有革命性意义的Transformer架构为起点。该架构通过「自注意力机制」(Self-Attention)彻底改变了自然语言处理的技术范式。
到了2018年,BERT和GPT等模型崭露头角,显著提升了模型对上下文的理解能力和文本生成能力。
2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本学习」和「零样本学习」能力,进一步拓展了LLM的应用边界。然而,「幻觉」问题 — — 即生成内容与事实不符,甚至出现「一本正经,胡说八道」的现象 — — 成为了一个关键挑战。
2022年,OpenAI采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)技术应对这一问题,从而开发了「对话式」模型ChatGPT,引发全球对AI的广泛关注。
到2023年和2024年,像GPT-4和GPT-4o这样的「多模态模型」(Multimodal Model)已经能够无缝整合文本、图像和音频输入,使它们展现出更接近人类的能力,例如「听」、「说」和「看」。
近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得了突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了LLM的普及,大大促进AI 在各行业的创新应用。

1. 什么是语言模型 (Language Models)?
「语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。

1.1 大型语言模型(LLMs)
虽然「语言模型」(LMs)和「大型语言模型」(LLMs)经常被互换使用,但它们在规模、架构和能力上存在差异。LLMs实际上是传统LMs的扩展版本,通常包含数十亿个模型参数。例如,GPT-3拥有1750亿个参数。“LLM”这一术语在2018–2019年随着BERT和GPT-1等模型的出现开始流行,但2020年GPT-3的发布真正展示了它们的潜力,在各种任务中表现出卓越性能,并确立了LLMs作为现代人工智能的基石地位。
1.2 自回归语言模型 (Autoregressive Language Models)
大多数LLMs以「自回归方式」(Autoregressive)操作,这意味着它们根据前面的「文本」预测下一个「字」(或token/sub-word)的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系,从而善于「文本生成」。
在数学上,LLM 是一个概率模型(Probabilistic Model),根据之前的输入文本(w₁, w₂, …, wₙ₋₁)预测下一个字 (wₙ) 的概率分布。这可以表示为:
P(wₙ|w₁,w₂,…,wₙ₋₁)
在文本生成任时,LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。这一过程可以采用不同的策略:既可以选择概率最高的下个字(即贪婪搜索),也可以从预测的概率分布中随机采样一个字,这个随机方法使得每次生成的文本都可能有所不同,这种特性与人类语言的多样性和随机性颇为相似。

1.3 生成能力
LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始,如下图,模型通过迭代「预测下一个字」(Next Word Prediction),直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答,LLM通过将先前选择的标记添加到输入中进行迭代生成,尤如「文字接龙」游戏。

LLM的文本生成尤如「文字接龙」游戏。
这种生成能力推动了多种应用的发展,例如创意写作、对话式人工智能以及自动化客户支持系统。
2. Transformer革命 (2017)
2017年,Vaswani等人通过其开创性论文《Attention is All You Need》引入了Transformer架构,这标志着自然语言处理(NLP)领域的一个重要转折点。Transformer解决了早期模型(如循环神经网络RNN和长短期记忆网络LSTM)的关键限制。这些传统模型在处理长程依赖性和顺序输入时面临诸多挑战,例如计算效率低下、训练时间过长以及梯度消失问题。这些问题使得基于RNN或LSTM的语言模型难以实现高效且准确的性能。而Transformer的出现克服了这些障碍,彻底改变了NLP领域的研究范式,并为现代大型语言模型的发展奠定了坚实基础。
自注意力和Transformer架构:

2.1 自注意力与Transformer架构的核心创新
1. 自注意力机制 (Self-Attention):与传统的RNN按顺序逐个处理标记不同,Transformer引入了「自注意力机制」,允许模型动态权衡每个标记相对于其他标记的重要性。这种机制使模型能够专注于输入中与当前任务最相关的部分,从而更好地捕捉全局上下文信息。数学上,「自注意力机制」通过以下公式计算:

其中,Q、K、V是查询(query)、键(key)和值(value)矩阵,dₖ是键向量的维度。自注意力机制不仅支持并行计算,显著加快了训练速度,还增强了模型对全局上下文的理解能力。

2. 多头注意力 (Multi-Head Attention):多头注意力机制通过多个独立的注意力头并行操作,每个头专注于输入的不同方面。这些注意力头的输出被连接并通过一个线性变换层整合,从而生成更丰富、更全面的上下文表示。这种设计使模型能够从多个角度捕捉复杂的语义关系。

3. 前馈网络(Feed-Forward Network, FFN)和层归一化(Layer Norm):每个Transformer层包含一个应用于每个标记的前馈网络(FFN),以及层归一化和残差连接。前馈网络由两层全连接层组成,通常使用GELU (Gaussian Error Linear Unit)激活函数。层归一化和残差连接的设计有效稳定了训练过程,并支持构建更深的网络架构,从而提升了模型的表达能力。
4. 位置编码(Positional Encoding):由于Transformer本身不包含序列信息(即标记的顺序),因此需要通过位置编码来显式地表示词序。位置编码通常采用正弦和余弦函数的形式,将位置信息注入到输入嵌入中。这种方法既保留了顺序信息,又不牺牲并行化的优势。

2.2 对语言建模的影响
- 可扩展性:Transformer实现了完全并行化的计算方式,这使得在大规模数据集上训练超大模型成为可能。相比传统的RNN和LSTM,Transformer的计算效率更高,能够充分利用现代硬件(如GPU和TPU)的并行计算能力。
- 上下文理解:自注意力机制能够同时捕捉局部和全局依赖关系,显著提高了模型对上下文的理解能力。这种能力使Transformer生成的文本更加连贯,语义更加准确,尤其在处理复杂任务(如翻译、问答和文本生成)时表现出色。
Transformer的提出不仅是NLP领域的一次重大突破,更是人工智能发展史上的一个重要里程碑。它通过自注意力机制、多头注意力、位置编码等创新设计,解决了传统模型的诸多局限性,为未来的语言建模和深度学习研究开辟了全新的可能性。
3. 预训练Transformer模型时代 (2018–2020)
2017年Transformer架构的引入为NLP的新时代铺平了道路,其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现:BERT和GPT,它们展示了大规模预训练和微调范式的强大功能。
3.1 BERT:双向上下文理解 (2018)
2018年,谷歌推出了BERT(Bidirectional Encoder Representations from Transformers),这是一种使用Transformer编码器(Encoder)的突破性模型,在广泛的NLP任务中取得了最先进的性能。与之前单向处理文本(从左到右或从右到左)的模型不同,BERT采用了双向训练方法,使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示,BERT在文本分类、命名实体识别(NER)、情感分析等语言理解任务中表现出色。

BERT 是首个仅使用编码器的 Transformer 模型。
BE

最低0.47元/天 解锁文章
4044

被折叠的 条评论
为什么被折叠?



