Kimi K2 技术全解:1T MoE 大模型如何炼成开放智能体
文章目录
1. 模型架构与特点:1 T MoE 的「大」与「省」
Kimi K2 采用 稀疏激活的 Mixture-of-Experts(MoE) 架构,总参数量 1 T,但每次推理仅激活 32 B(≈ 3.2 %),在保持性能的同时显著降低算力成本。
| 关键指标 | 数值 |
|---|---|
| 总参数量 | 1 T |
| 激活参数量 | 32 B |
| 层数(含 Dense) | 61 |
| Attention 隐维度 | 7 168 |
| Expert 隐维度 | 2 048 |
| Expert 总数 | 384 |
| 每 token 激活 Expert 数 | 8 |
| 共享 Expert 数 | 1 |
| 词表大小 | 160 k |
| 上下文长度 | 128 k |
| Attention 机制 | MLA(Multi-head Latent Attention) |
| 激活函数 | SwiGLU |
- MLA+SwiGLU:MLA 通过低秩投影压缩 KV 缓存,SwiGLU 在保持非线性能力的同时减少参数量,两者结合使得 128 k 长上下文推理的显存占用可控。
- 384 Experts + Top-8 路由:细粒度专家分工 + 动态路由,保证知识容量与推理效率的平衡。
- Block-FP8 存储:权重以 block-fp8 格式开源,显存占用减半,方便单机 8×A100(80 G)即可运行 32 k 上下文。
2. 主要创新点:MuonClip、Agentic RL 与工具调用
2.1 MuonClip 优化器:解决「大模型训练失稳」
https://github.com/MoonshotAI/Moonlight
传统 AdamW 在大规模 MoE 训练中效率不足,Moonshot 先前在Moonlight论文中提出的 Muon 优化器通过二阶信息更新权重,显著提升样本效率。但在 1 T 规模下,Muon 会导致 attention logit 爆炸。为解决此问题,引入MuonClip优化器,基于qk-clip技巧改进Muon优化器:
- 双因子缩放
把 Query / Key 向量分别乘上 n α n^{\alpha} nα 和 n 1 − α n^{1-\alpha} n1−α,既保证 q i ⊤ k j q_i^{\top} k_j qi⊤kj 前的总系数仍是 n n n,又通过可调超参 α \alpha α 灵活分配缩放力度。
q i = n α W q c i k i = n 1 − α W k c i attention logit i j = n α q i ⊤ ( n 1 − α k j ) = n q i ⊤ k j q_i = n^{\alpha} \, W_q \, c_i \\ k_i = n^{1 - \alpha} \, W_k \, c_i \\ \text{attention logit}_{ij} = n^{\alpha} q_i^{\top} \left( n^{1 - \alpha} k_j \right) = n \, q_i^{\top} k_j qi

最低0.47元/天 解锁文章
2278

被折叠的 条评论
为什么被折叠?



