
LLM
文章平均质量分 62
二禾_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MOE架构
在 DeepSeek-v3 等 MOE 大模型中,通过将 FFN 层替换为 MOE 层的设计,模型在拥有海量参数的同时,其实际计算量却与传统稠密模型相当,从而实现了高效预训练和快速推理。MOE架构是指混合专家模型(Mixture-of-Experts)的一种架构,它通过将传统的前馈网络(FFN)层替换为多个专家网络(Experts),并在训练和推理过程中动态选择激活的专家,来实现模型的高效计算和稀疏激活。:每个专家网络是一个独立的子网络,通常是一个前馈网络(FFN),负责处理特定类型的输入数据。原创 2025-05-21 21:38:10 · 230 阅读 · 0 评论 -
MHA、MQA、GQA、MLA
方法QK/V计算效率模型容量MHA每个头独立每个头独立低高MQA每个头独立全局共享高低GQA每个头独立组内共享中中MQA适合推理加速(如 LLama-2 70B 使用 MQA)。GQA在保持较高性能的同时减少计算(如 LLama-3 使用 GQA)。MHA适用于对性能要求极高的场景。原创 2025-03-11 11:42:09 · 2394 阅读 · 0 评论