介绍一下 FFN 块 计算公式?
- 介绍一下 GeLU计算公式?
- 介绍一下 Swish计算公式?
2个可训练权重矩阵,中间维度为 4h
- 介绍一下 使用 GLU线性门控单元的 FFN块 计算公式?
- 介绍一下 使用 GeLU的 GLU块 计算公式?
- 介绍一下 使用 Swish的 GLU块 计算公式?
3个可训练权重矩阵,中间维度为 4h*2/3
各LLMs 都使用哪种激活函数?
4h = 4*4096 = 16384
2/3 * 4h = 10022 -> 11008
11008/128 = 86