【收藏必学】一文读懂Transformer与MoE:大模型架构的终极指南(程序员必看)

前言

每个人都在讨论 ChatGPTGeminiGrok 这样的大型 AI 模型。但许多人没有意识到,这些模型中的大多数都使用了相同的核心架构——Transformer。最近,另一个术语在生成式 AI 领域开始流行:专家混合模型(Mixture of Experts,简称 MoE)

这在 Transformer 与 MoE 之间造成了许多困惑。有人认为 MoE 是一种全新的架构,也有人认为它只是一个更大的 Transformer。这使得人们很难理解其背后真正发生了什么。

MoE 是 Transformer 的替代品,还是仅仅是扩展 Transformer 的一种更聪明的方式?两者真的不同吗? 这些问题在人们听到 Transformer 和 MoE 时经常出现。

借来下,我们将用简单的术语解释说明,了解什么是 Transformer、MoE 增加了什么、它们的不同之处,以及何时选择其中之一。

理解 Transformer

在比较 Transformer 和 MoE 之前,我们需要理解 Transformer 到底是什么。

从高层次来看,Transformer 是一种神经网络架构,旨在处理文本、代码或音频等序列。它不会像 RNNLSTM 那样一个接一个地处理词元(tokens)。相反,它会一次性查看整个序列,然后决定哪些词元彼此之间最重要。这种决策过程称为自注意力(self-attention)

我知道这听起来可能令人困惑,所以可以这样简单地想象:将 Transformer 想象成一个黑盒子。你给它一个输入,它给你一个输出。例如,把它想象成一个机器翻译工具:你输入一个语言的句子,它输出另一个语言的翻译句子。

Transformer 的组成部分

Transformer 是如何将一个句子转换成另一个句子的呢?

它有两个重要的组成部分:编码器(encoding component)解码器(decoding component),它们都负责转换。编码器是一个编码器堆栈,解码器是一个解码器堆栈,两者的数量相同。

编码器的作用

这些编码器在结构上都是相似的,每个编码器又分为两个子层:前馈神经网络(feed-forward neural network)自注意力层(self-attention layer)

在编码器中,输入词元首先经过自注意力层。这个层允许模型在处理给定词时,查看句子中的所有其他词,从而理解该词的上下文。自注意力的结果随后被传递给一个前馈网络(一个小的 MLP)。这个网络被应用于序列中的每个位置。

解码器的作用

解码器也使用了这两个部分,但它在两者之间增加了一个额外的注意力层。这个额外的层允许解码器像经典的 seq2seq 模型中的注意力机制一样,专注于编码器输出中最相关的部分。

什么时候用 Transformer?

当你需要捕获序列中的关系,并且你有足够的数据或一个强大的预训练模型时,Transformer 的效果最好。

当您的数据具有顺序和上下文,并且序列中不同部分之间的关系在长距离上很重要时,请使用 Transformer。

它们在文本任务(如聊天机器人、翻译、摘要和代码)中表现出色。它们对于时间序列、音频,甚至结合文本、图像或音频的视觉和多模态问题也非常有效。

在实践中,当您可以从预训练模型开始,或者有足够的数据和计算资源来训练一个有意义的模型时,Transformer 的表现最佳。对于非常小的表格数据集、微小的问题或有严格延迟限制的情况,更简单的模型通常更适合。但一旦涉及丰富序列或结构化数据,Transformer 几乎总是默认的选择。

理解专家混合模型(MoE)

专家混合模型(MoE)是一种流行的架构,它使用多个专家来改进现有的Transformer 模型,或者可以说提高大型语言模型(LLMs)的质量。MoE 主要由两个组件定义:

  1. 专家(Experts): 每个前馈神经网络层被替换为一组专家,并且只有其中的一个子集会被用于处理任何给定的词元。这些专家通常是独立的前馈神经网络(FFNNs)。
  2. 路由器或门控网络(Router or gate network): 它决定哪些词元被发送给哪些专家。它的作用就像一个看门人。

何时何地使用专家混合模型?

让我们将其分解为两个您真正关心的问题:

  1. MoE 什么时候才值得使用?
  2. 在模型的哪个位置引入它才有意义?

你应该在以下情况使用 MoE:

您应该使用 MoE 的场景解释
需要非常大的模型容量MoE 允许在不大幅增加训练和推理计算成本的情况下,将模型参数量扩展到数万亿。
计算资源预算紧张由于 MoE 在推理时只激活一小部分参数(条件计算),您可以用更少的计算成本运行一个巨大的模型。
处理多领域或多语言数据不同的专家可以自然地学习处理特定类型的数据(例如,一个专家处理 Python 代码,另一个处理法语)。
需要快速推理速度尽管模型很大,但因为只使用一小部分参数,推理速度可以比同等容量的密集模型快得多。

在模型/管线的哪个部分应该使用 MoE?

通常,MoE 结构会替换 Transformer 块中的 **前馈网络(Feed-Forward Network, FFN)**部分。

Transformer 与 MoE 的区别

它们主要在解码器块中有所不同。

  • Transformer 使用一个单一的前馈网络
  • MoE 使用多个专家,这些专家是比 Transformer 中 FFNN 更小的 FFNNs。在推理过程中,只选择这些专家中的一个子集。这使得 MoE 的推理速度更快。

MoE 中的网络包含多个解码器层:

由于网络包含多个解码器层,文本在每个层都由不同的专家处理,甚至在单个层内,所选的专家也可以随词元而改变。问题是模型如何决定使用哪些专家。这由**路由器(Router)**处理。

路由器就像一个多类别分类器,它为所有专家生成 Softmax 分数。然后,模型根据这些分数选择 Top K 个专家。路由器与网络的其余部分一起训练,并随着时间的推移学习哪些专家最适合每个输入。

可以参考下表了解两者之间的更多差异:

特性Transformer(密集模型)专家混合模型 (MoE)
核心 FFNN 层单一的、大型前馈网络。多个独立的前馈网络(专家)。
计算类型密集计算 :所有参数都参与每个输入和预测。条件计算 :只有一小部分专家/参数参与每个输入。
模型容量受计算预算限制。容量的增加与计算的增加成正比。可以实现极高的容量(数万亿参数),而不成比例地增加计算成本。
训练成本高(训练一个 1 万亿参数的模型需要极大的计算量)。相对较低(计算量与一个更小的“稀疏”模型相似)。
推理速度较慢(必须执行所有参数的计算)。较快(只激活 Top K 专家)。
专长简单、强大、易于部署。擅长处理多模态、多任务或多领域的数据。

结论

专家混合模型和 Transformer 都旨在扩展模型的智能能力,但它们采用了不同的方式:

  • Transformer 使用密集计算,其中每个参数都对每个预测做出贡献。这使它们简单、强大且易于部署。
  • MoE 使用条件计算,对每个输入只激活参数的一个子集。这使得模型具有更大的容量,而计算量增加的比例较小,并允许不同的专家进行专业化

简单来说:

  • Transformer 定义了信息如何在模型中流动。
  • MoE 决定了模型的哪些部分应该处理每个输入。

随着模型的增长和任务变得更加复杂,最有效的系统很可能会结合这两种方法

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值