Kimi K2万亿参数开源模型原理介绍

Kimi K2 技术全解:1T MoE 大模型如何炼成开放智能体

1. 模型架构与特点:1 T MoE 的「大」与「省」

Kimi K2 采用 稀疏激活的 Mixture-of-Experts(MoE) 架构,总参数量 1 T,但每次推理仅激活 32 B(≈ 3.2 %),在保持性能的同时显著降低算力成本。

关键指标 数值
总参数量 1 T
激活参数量 32 B
层数(含 Dense) 61
Attention 隐维度 7 168
Expert 隐维度 2 048
Expert 总数 384
每 token 激活 Expert 数 8
共享 Expert 数 1
词表大小 160 k
上下文长度 128 k
Attention 机制 MLA(Multi-head Latent Attention)
激活函数 SwiGLU
  • MLA+SwiGLU:MLA 通过低秩投影压缩 KV 缓存,SwiGLU 在保持非线性能力的同时减少参数量,两者结合使得 128 k 长上下文推理的显存占用可控。
  • 384 Experts + Top-8 路由:细粒度专家分工 + 动态路由,保证知识容量与推理效率的平衡。
  • Block-FP8 存储:权重以 block-fp8 格式开源,显存占用减半,方便单机 8×A100(80 G)即可运行 32 k 上下文。

2. 主要创新点:MuonClip、Agentic RL 与工具调用

2.1 MuonClip 优化器:解决「大模型训练失稳」

https://github.com/MoonshotAI/Moonlight

传统 AdamW 在大规模 MoE 训练中效率不足,Moonshot 先前在Moonlight论文中提出的 Muon 优化器通过二阶信息更新权重,显著提升样本效率。但在 1 T 规模下,Muon 会导致 attention logit 爆炸。为解决此问题,引入MuonClip优化器,基于qk-clip技巧改进Muon优化器:

  1. 双因子缩放
    把 Query / Key 向量分别乘上 n α n^{\alpha} nα n 1 − α n^{1-\alpha} n1α,既保证 q i ⊤ k j q_i^{\top} k_j qikj 前的总系数仍是 n n n,又通过可调超参 α \alpha α 灵活分配缩放力度。
    q i = n α   W q   c i k i = n 1 − α   W k   c i attention logit i j = n α q i ⊤ ( n 1 − α k j ) = n   q i ⊤ k j q_i = n^{\alpha} \, W_q \, c_i \\ k_i = n^{1 - \alpha} \, W_k \, c_i \\ \text{attention logit}_{ij} = n^{\alpha} q_i^{\top} \left( n^{1 - \alpha} k_j \right) = n \, q_i^{\top} k_j qi
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值