大模型参数组成计算QwQ-32B为例

输入层

参数组成是Embedding的词表总和

transformer层

参数组成包括归一化参数、QKV的参数、输出全连接线性变换参数、FFN投影参数

输出层

归一化参数、全连接线性变换参数

我们以QwQ-32B为例,计算32B参数组成

QwQ-32B
架构 :使用了 RoPE(旋转位置编码)、SwiGLU、RMSNorm 和带有偏置项的注意力 QKV
各参数维度参考modelscope文件:

名称大小
token词表大小vocab_size152064
词向量维度hidden_size5120
中间维度intermediate_size27648
KV共享num_key_value_heads8
Qnum_heads40
头维度head_dim128
层数transformer block64
输入层

词表参数:vocab_size * hidden_size = 152064 * 5120

transformer层

Q的参数:hidden_size * hidden_size = 5120 * 5120
K的参数:由于KV是GQA,总共8个头,所以分成5组,hidden_size * (hidden_size / 5) = (5120 * 5120 / 5)
V的参数:和K一样,hidden_size * (hidden_size / 5) = (5120 * 5120 / 5)
输出后全连接线性转换参数:hidden_size * hidden_size = 5120 * 5120
FFN上投影:intermediate_size * hidden_size = 27648 * 5120
FFN下投影:intermediate_size * hidden_size = 27648 * 5120
SwiGLU门控参数:intermediate_size * hidden_size = 27648 * 5120
两个RMSNorm归一化:2 * hidden_size = 2 * 5120

输出层

归一化忽略不计,全连接线性变换:vocab_size * hidden_size = 152064 * 5120

总参数量

输入层 +(transformer层 * 64 )+ 输出层

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值