市面常见的大模型各自采用了何种架构

最新推荐文章于 2025-09-23 17:41:16 发布

原创最新推荐文章于 2025-09-23 17:41:16 发布 · 864 阅读

CC 4.0 BY-SA版权

文章标签：

22 篇文章

订阅专栏

12 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

针对大模型开发中主流架构及常见模型应用情况的系统梳理，综合权威技术资料整理而成：

‌Encoder-Decoder 架构‌
- ‌结构特点‌：编码器提取输入特征，解码器生成目标输出。
- ‌典型应用‌：序列到序列任务（如翻译、摘要）。
- ‌代表模型‌：T5、BART。
‌Causal Decoder-only 架构‌
- ‌结构特点‌：仅使用 Transformer 解码器，通过因果掩码约束生成方向。
- ‌适用场景‌：文本生成任务（对话、续写）。
- ‌代表模型‌：GPT 系列、LLaMA、Falcon。
‌Prefix Decoder 架构‌
- ‌结构特点‌：输入分为固定前缀和可学习生成部分，实现可控生成。
- ‌优点‌：灵活控制输出逻辑（如推理任务）。
- ‌代表模型‌：GLM、CPM。
‌稀疏架构（Sparse Architecture）‌
- ‌技术分类‌：稀疏注意力（如局部窗口）、动态参数激活。
- ‌优势‌：降低计算复杂度（如 O(n2)→O(n)O(n2)→O(n)），支持长上下文。
- ‌代表模型‌：Longformer、BigBird。
‌混合架构（Hybrid Designs）‌
- ‌Dense + MoE 混合‌：部分层全连接，部分层采用 MoE 结构。
- ‌典型模型‌：DeepSeek-MoE、Google GLaM。