MOE vs MOT 让LLM更加有效

图片

知乎:北方的郎
链接:https://zhuanlan.zhihu.com/p/691070810

翻译自:https://www.superannotate.com/blog/mixture-of-experts-vs-mixture-of-tokens

事实证明,LLM的表现与模型大小和可扩展性呈正相关。这种扩展伴随着计算资源的扩展,也就是说,模型越大,成本就越高。

图片

基于参数计数的 LLM 性能

这是该行业面临的最大挑战之一。虽然专家混合(Mixture of Experts:MOE)最近被大肆宣传用于改进Transformer模型,但机器学习人员发现了一种更有前途的新方法——令牌混合(Mixture of Tokens:MOT)。MOE在尝试不同模型时表现出的某些缺点导致需要其他方法。在这篇博文中,我们将讨论这些新技术,并研究 MoT 在保持训练和推理成本的同时扩展大型语言模型的方式。

Mixture of Experts

Mixture of Experts 因显着优化 Transformer 的可扩展性而闻名。要理解这一点,我们首先要了解这些“专家”是谁。在 MoE 中,专家是专门执行一项或多项任务的模型。在标准Transformer模型中,令牌(token)由标准前馈层处理。MoE 没有采用这种方法,而是将每个token定向到一组专家以及一个称为控制器的小型网络。该控制器确保每个令牌仅由一小部分专家处理。进一步了解可以参考:https://arxiv.org/pdf/2310.15961.pdf

开关Transformer将每个令牌发送给控制器产生的得分最高的一位专家。这项技术导致参数大幅减少——从 1.6T 模型(T5 架构)到等效 1.4B vanilla Transformer 的 FLOPS 成本。

专家选择提供了一种略有不同的方法。不是让token选择前 k 个专家,而是专家自己选择前 k 个token。该方法保证了均匀的负载平衡(每个专家接收相同数量的令牌),并在训练效率和下游性能方面取得了显着的进步。然而,存在某些Token不被选择的风险。

图片

MoE 方法:从左到右:标准前馈、开关、专家选择


当前方法的局限性

虽然大参数 MoE 架构的性能令人印象深刻,但它们在训练和推理过程中面临着一系列新的挑战。最值得注意的是:

训练不稳定性:这种方法谨慎地选择专家并将其与token匹配。这意味着控制器权重的微小变化可能会对控制器决策产生不成比例的影响。

负载不平衡: MoE 的问题是我们无法有效地平衡令牌和专家的分配方式,因为路由网络的选择没有受到有效的限制。这就是为什么有些令牌没有任何专家来处理它们(令牌丢弃),并且几乎所有令牌都只分配给少数专家(模型崩溃)。

信息泄漏:一些成功的 MoE 方法将序列中不同位置的令牌一起处理(即,通过比较批次中所有令牌的分数)。这造成了序列内信息泄漏并阻碍了它们在自回归解码中的实用性。

知识混合性:由于专家数量有限,传统 MoE 架构中的专家通常会积累广泛的知识。这种广泛的知识库削弱了个别专家的专业性和有效性。

知识冗余:多个专家在学习相似信息时有趋同的倾向,导致知识领域重叠和模型参数使用效率低下。

在他们最近的论文中,Cohere AI 的科学家讨论了解决MOE主要挑战之一的方法——必须将所有专家存储在内存中。他们通过将 MoE 架构与轻量级专家独特地结合起来,提出了参数极其高效的 MoE。他们的 MoE 架构优于标准 PEFT 方法,并且仅通过更新轻量级专家即可达到完全微调的效果——不到 11B 参数模型的 1%。

解决MOE的限制

在他们最近的论文中,Cohere AI 的科学家讨论了解决MOE主要挑战之一的方法——将所有专家存储在内存中。他们通过将 MoE 架构与轻量级专家独特地结合起来,提出了一种参数极其高效的 MoE。他们的 MoE 架构优于标准 PEFT 方法,并且仅通过更新轻量级专家即可达到完全微调的效果——不到 11B 参数模型的 1%。

最近的一篇论文讨论了 MoE 的最后两个局限性,并提出了一种解决这些问题的新技术——DeepSeekMoE。这是新的 MoE 架构,旨在通过采用两个关键策略来增强专家专业化:细粒度专家分割和共享专家隔离。

细粒度专家分割(Fine-grained expert segmentation)涉及细分 FFN 中间隐藏维度,从而允许细粒度专家之间更细致地分配知识。这种细分使每个专家能够专注于更具体的知识领域,从而在保持恒定的计算成本的同时实现更高水平的专业化。

同时,共享专家隔离(shared expert isolation)策略将特定专家指定为“共享”,负责捕获不同背景下的共同知识。通过将一般知识集中在这些共享专家上,减少了其他专家学习过程中的冗余。这种方法提高了参数效率,并确保每位专家始终专注于独特且独特的知识领域。

图片

DeepSeekMoE。在这三种架构中,专家参数的数量和计算成本保持不变

DeepSeekMoE 经过扩展可训练 16B 模型,只需约 40% 的计算量,即可实现与 DeepSeek 7B 和 LLaMA2 7B 相当的性能。研究人员还计划将 DeepSeekMoE 扩展到 145B,突出其相对于 GShard 架构的优势,并展示与 DeepSeek 67B 相当的性能。

Token混合(Mixture of Tokens)

MoE 的几个缺点导致了混合Token(MoT)的兴起。这种对方法的轻微修改解决了所讨论的方法带来的许多问题。MoT 不是将token发送给专家,而是将不同示例中的token混合在一起,然后再将其提供给专家。这使得模型能够从所有token-专家组合中学习,并提高训练稳定性和专家利用率。在向专家提供token后,每种混合物都会被处理并重新分配回原始token。

token混合是如何进行的?首先,您需要为每个token设置重要性权重。这是通过控制器完成的,然后是对生成的token分数执行 softmax 层。因此,每个专家的token权重是独立计算的。最后,将每个token乘以其重要性权重,然后将它们全部加在一起。

图片

令牌混合:每个专家的令牌都是唯一混合的(混合权重由控制器决定,为简单起见,此处省略),然后处理每个混合物并将其重新分配回原始令牌(使用与之前相同的权重)。

MoT 通过进行以下更改来解决 MoE 模型的问题:

  1. 混合来自不同示例的token,然后将其提供给专家;通过允许模型从所有token-专家组合中学习,这提高了训练稳定性和专家利用率。

  2. token混合是一个完全可微的模型,这意味着它可以使用标准的基于梯度的方法进行训练。这避免了辅助损失或其他难以训练的技术的需要,从而更容易训练和部署。”

图片

MoE 与 MoT:在专家混合中(左),每个令牌都被路由到不同的专家前馈层。在令牌混合(右)中,每组内的令牌被混合,并且混合令牌由专家前馈层处理。


结论

toke混合有可能显着提高LLM的表现和效率。与普通 Transformer 相比,它显示出训练时间减少了 3 倍的惊人结果。未来,我们预计 MoT 将继续带来更显着的改进。

图片

MoTs 仅用 1/4 的步数和 1/3 的训练时间就减少了密集香草 Transformer 的最终训练损失,预计未来将显着改善。

<think>好的,用户想了解深度求索公司的两个模型:DeepSeek-MoE和DeepSeek-LLM的区别。首先我需要回忆这两个模型的相关信息,确保自己理解正确。 首先,DeepSeek-MoE是基于MoE架构的,而DeepSeek-LLM是传统的密集模型。MoE是混合专家系统,它通过多个专家网络处理不同任务,可能更高效。而LLM通常是Transformer架构,参数密集,所有参数都参与计算。 接下来要考虑它们的结构差异。MoE模型可能参数量更大,但计算成本较低,因为每次激活部分参数。而LLM虽然参数少,但计算时使用全部参数,可能更耗资源。例如,DeepSeek-MoE-16B有160亿参数,但每个token只使用约29亿,而DeepSeek-LLM-7B有70亿参数,全部参与计算。 然后是性能方面,用户可能关心效果和效率。MoE在相同计算成本下可能效果更好,或者相同效果时更高效。比如,DeepSeek-MoE-16B在相同计算量下接近DeepSeek-LLM-7B的效果,但参数量更大但计算量少。 应用场景的区别也很重要。MoE适合需要高效率、处理多样化任务的场景,LLM适合对效果要求高且资源充足的情况。用户可能需要根据自身需求选择。 另外,训练策略的不同。MoE需要更复杂的训练方法,比如路由策略和负载均衡,而LLM训练相对标准。用户如果是技术人员,可能需要知道这些细节。 用户可能的背景是什么?可能是开发者、研究者,或者企业用户。他们可能需要选择适合的模型来部署应用。需要解释清楚两者的优缺点,帮助用户做决策。 有没有可能用户没提到的深层需求?比如成本考量、部署难度、模型的可扩展性。这些因素也可能影响他们的选择,但用户没有明确问,可能需要简要提及。 最后要确保回答准确,结构清晰,分点说明区别,用例子和参数帮助理解。避免使用太专业的术语,保持口语化,但核心概念要准确。</think>DeepSeek-MoE 和 DeepSeek-LLM 是深度求索(DeepSeek)公司推出的两种大语言模型,它们在架构设计和应用场景上有明显区别。以下是主要差异的对比: --- ### **1. 模型架构** - **DeepSeek-MoE** - 基于 **MoE(Mixture of Experts,混合专家)** 架构,将模型拆分为多个“专家”子网络,每个输入仅激活部分专家(如2-4个),实现“分而治之”的高效计算。 - 典型示例:DeepSeek-MoE-16B(总参数量160亿),每个token仅激活约29亿参数,计算量显著降低。 - **DeepSeek-LLM** - 采用 **传统密集架构(Dense Model)**,所有参数参与每个输入的推理,计算资源消耗较高。 -7B(70亿参数),每个token需调用全部参数。 --- ### **2. 性能与效率** - **计算效率** - **MoE**:通过稀疏激活减少计算量,适合高吞吐场景。例如,DeepSeek-MoE-16B在相同计算成本下,性能接近DeepSeek-LLM-7B。 - **LLM**:计算密集,资源需求高,但同等参数量下通常表现更强(如DeepSeek-LLM-67B在数学、代码任务上优于主流开源模型)。 - **模型效果** - **MoE**:在相同计算成本下,效果可媲美小规模密集模型,但参数量更大(如16B MoE vs. 7B LLM)。 - **LLM**:参数量直接决定能力上限,大参数模型(如67B)在复杂任务中表现更优。 --- ### **3. 应用场景** - **DeepSeek-MoE** - 适合需要**高效率、低成本处理多样化任务**的场景,例如实时对话、多任务API服务。 - 优势:在有限算力下支持更大模型规模,平衡效果与成本。 - **DeepSeek-LLM** - 适合**对效果要求极高且资源充足**的场景,如复杂推理、代码生成、数学问题求解。 - 优势:模型能力上限更高,尤其在专业领域表现突出。 --- ### **4. 训练复杂度** - **MoE**:需额外设计专家路由策略、负载均衡(防止某些专家被过度使用),训练难度较高。 - **LLM**:训练流程相对标准化,依赖大规模数据和算力。 --- ### **总结对比表** | 特性 | DeepSeek-MoE | DeepSeek-LLM | |--------------|----------------------------| | **架构** | 稀疏激活(MoE) | 密集全参数激活 | | **计算效率** | 高(动态激活专家) | 较低(全参数参与) | | **适用场景** | 高吞吐、多任务并行 | 复杂任务、高精度需求 | | **典型参数量** | 16B(总参数量) | 7B/67B(实际调用参数量) | | **资源需求** | 更低计算成本 | 更高计算成本 | --- ### **选择建议** - 若需**低成本部署且任务多样**,优先考虑MoE架构(如DeepSeek-MoE-16B)。 - 若追求**极致效果且算力充足**,选择大规模密集模型(如DeepSeek-LLM-67B)。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值