从 Transformer 到 DeepSeek-R1:大型语言模型的变革之路与前沿突破

本文参考引用:medium-大型语言模型简史

2025年初,DeepSeek开源了一款开创性且高性价比的「大型语言模型」(Large Language Model, LLM) — — DeepSeek-R1,引发了AI领域的巨大变革。

本文回顾LLM的发展历程,以2017年具有革命性意义的Transformer架构为起点。该架构通过「自注意力机制」(Self-Attention)彻底改变了自然语言处理的技术范式。

到了2018年,BERT和GPT等模型崭露头角,显著提升了模型对上下文的理解能力和文本生成能力。

2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本学习」和「零样本学习」能力,进一步拓展了LLM的应用边界。然而,「幻觉」问题 — — 即生成内容与事实不符,甚至出现「一本正经,胡说八道」的现象 — — 成为了一个关键挑战。

2022年,OpenAI采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)技术应对这一问题,从而开发了「对话式」模型ChatGPT,引发全球对AI的广泛关注。

到2023年和2024年,像GPT-4和GPT-4o这样的「多模态模型」(Multimodal Model)已经能够无缝整合文本、图像和音频输入,使它们展现出更接近人类的能力,例如「听」、「说」和「看」。

近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得了突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了LLM的普及,大大促进AI 在各行业的创新应用。

1. 什么是语言模型 (Language Models)?

「语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。

1.1 大型语言模型(LLMs)

虽然「语言模型」(LMs)和「大型语言模型」(LLMs)经常被互换使用,但它们在规模、架构和能力上存在差异。LLMs实际上是传统LMs的扩展版本,通常包含数十亿个模型参数。例如,GPT-3拥有1750亿个参数。“LLM”这一术语在2018–2019年随着BERT和GPT-1等模型的出现开始流行,但2020年GPT-3的发布真正展示了它们的潜力,在各种任务中表现出卓越性能,并确立了LLMs作为现代人工智能的基石地位。

1.2 自回归语言模型 (Autoregressive Language Models)

大多数LLMs以「自回归方式」(Autoregressive)操作,这意味着它们根据前面的「文本」预测下一个「字」(或token/sub-word)的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系,从而善于「文本生成」。

在数学上,LLM 是一个概率模型(Probabilistic Model),根据之前的输入文本(w₁, w₂, …, wₙ₋₁)预测下一个字 (wₙ) 的概率分布。这可以表示为:

P(wₙ|w₁,w₂,…,wₙ₋₁)

在文本生成任时,LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。这一过程可以采用不同的策略:既可以选择概率最高的下个字(即贪婪搜索),也可以从预测的概率分布中随机采样一个字,这个随机方法使得每次生成的文本都可能有所不同,这种特性与人类语言的多样性和随机性颇为相似。

1.3 生成能力

LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始,如下图,模型通过迭代「预测下一个字」(Next Word Prediction),直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答,LLM通过将先前选择的标记添加到输入中进行迭代生成,尤如「文字接龙」游戏。

LLM的文本生成尤如「文字接龙」游戏。

这种生成能力推动了多种应用的发展,例如创意写作、对话式人工智能以及自动化客户支持系统。

2. Transformer革命 (2017)

2017年,Vaswani等人通过其开创性论文《Attention is All You Need》引入了Transformer架构,这标志着自然语言处理(NLP)领域的一个重要转折点。Transformer解决了早期模型(如循环神经网络RNN和长短期记忆网络LSTM)的关键限制。这些传统模型在处理长程依赖性和顺序输入时面临诸多挑战,例如计算效率低下、训练时间过长以及梯度消失问题。这些问题使得基于RNN或LSTM的语言模型难以实现高效且准确的性能。而Transformer的出现克服了这些障碍,彻底改变了NLP领域的研究范式,并为现代大型语言模型的发展奠定了坚实基础。

​自注意力和Transformer架构:

自注意力和Transformer架构

2.1 自注意力与Transformer架构的核心创新

1. 自注意力机制 (Self-Attention):与传统的RNN按顺序逐个处理标记不同,Transformer引入了「自注意力机制」,允许模型动态权衡每个标记相对于其他标记的重要性。这种机制使模型能够专注于输入中与当前任务最相关的部分,从而更好地捕捉全局上下文信息。数学上,「自注意力机制」通过以下公式计算:

其中,Q、K、V是查询(query)、键(key)和值(value)矩阵,dₖ是键向量的维度。自注意力机制不仅支持并行计算,显著加快了训练速度,还增强了模型对全局上下文的理解能力。

2. 多头注意力 (Multi-Head Attention):多头注意力机制通过多个独立的注意力头并行操作,每个头专注于输入的不同方面。这些注意力头的输出被连接并通过一个线性变换层整合,从而生成更丰富、更全面的上下文表示。这种设计使模型能够从多个角度捕捉复杂的语义关系。

3. 前馈网络(Feed-Forward Network, FFN)和层归一化(Layer Norm):每个Transformer层包含一个应用于每个标记的前馈网络(FFN),以及层归一化和残差连接。前馈网络由两层全连接层组成,通常使用GELU (Gaussian Error Linear Unit)激活函数。层归一化和残差连接的设计有效稳定了训练过程,并支持构建更深的网络架构,从而提升了模型的表达能力。

4. 位置编码(Positional Encoding):由于Transformer本身不包含序列信息(即标记的顺序),因此需要通过位置编码来显式地表示词序。位置编码通常采用正弦和余弦函数的形式,将位置信息注入到输入嵌入中。这种方法既保留了顺序信息,又不牺牲并行化的优势。

2.2 对语言建模的影响

  • 可扩展性:Transformer实现了完全并行化的计算方式,这使得在大规模数据集上训练超大模型成为可能。相比传统的RNN和LSTM,Transformer的计算效率更高,能够充分利用现代硬件(如GPU和TPU)的并行计算能力。
  • 上下文理解:自注意力机制能够同时捕捉局部和全局依赖关系,显著提高了模型对上下文的理解能力。这种能力使Transformer生成的文本更加连贯,语义更加准确,尤其在处理复杂任务(如翻译、问答和文本生成)时表现出色。

Transformer的提出不仅是NLP领域的一次重大突破,更是人工智能发展史上的一个重要里程碑。它通过自注意力机制、多头注意力、位置编码等创新设计,解决了传统模型的诸多局限性,为未来的语言建模和深度学习研究开辟了全新的可能性。

3. 预训练Transformer模型时代 (2018–2020)

2017年Transformer架构的引入为NLP的新时代铺平了道路,其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现:BERT和GPT,它们展示了大规模预训练和微调范式的强大功能。

3.1 BERT:双向上下文理解 (2018)

2018年,谷歌推出了BERT(Bidirectional Encoder Representations from Transformers),这是一种使用Transformer编码器(Encoder)的突破性模型,在广泛的NLP任务中取得了最先进的性能。与之前单向处理文本(从左到右或从右到左)的模型不同,BERT采用了双向训练方法,使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示,BERT在文本分类、命名实体识别(NER)、情感分析等语言理解任务中表现出色。

BERT 是首个仅使用编码器的 Transformer 模型。

BE

关于 DeepSeek-R1:8b 模型在 AnythingLLM 中处理图片内容的能力,当前的信息并未直接提及该模型的具体图像处理能力[^1]。然而,在讨论复杂的机器学习框架和特定模型的功能时,通常多模态模型具备一定的图像理解生成能力。 对于 DeepSeek-R1:8b 这样的大型语言模型变体来说,如果其被设计成一个多模态版本,则可能具有如下特性: ### 图像编码器集成 为了能够理解和分析输入的图像数据,DeepSeek-R1:8b 可能集成了先进的视觉变换器(Vision Transformer, ViT),用于提取图像特征并将其转换为可以其他形式的数据一起使用的表示向量。 ```python from transformers import AutoFeatureExtractor, VisionTransformerModel feature_extractor = AutoFeatureExtractor.from_pretrained('deepseek-r1-8b') model = VisionTransformerModel.from_pretrained('deepseek-r1-8b') def preprocess_image(image_path): image = Image.open(image_path) inputs = feature_extractor(images=image, return_tensors="pt") return inputs inputs = preprocess_image("path_to_image.jpg") outputs = model(**inputs) last_hidden_states = outputs.last_hidden_state ``` ### 跨模态融合机制 通过引入跨模态注意力机制或其他类型的交互层,使得文本描述对应的视觉信息之间建立联系,从而实现更深层次的理解以及基于图文混合输入的任务执行。 ### 应用场景示例 - **图像字幕生成**:给定一张图片作为输入,自动生成描述性的文字说明。 - **视觉问答系统**:针对给出的一张或多张照片提问,并返回准确的回答。 - **图像分类标注**:识别上传图片中的对象类别,并为其分配合适的标签。 尽管上述功能推测合理,但具体到 DeepSeek-R1:8b 是否支持这些操作还需查阅官方文档或进一步的技术披露来确认实际性能表现。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

歌刎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值