-
介绍一下 FFN 块 计算公式?
-
介绍一下 GeLU 计算公式?
-
介绍一下 Swish 计算公式?
2个可训练权重矩阵,中间维度为 4h
-
介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?
-
介绍一下 使用 GeLU 的 GLU 块 计算公式?
-
介绍一下 使用 Swish 的 GLU 块 计算公式?
3个可训练权重矩阵,中间维度为 4h*2/3
-
各LLMs 都使用哪种激活函数?
4h = 4*4096 = 16384
2/3 * 4h = 10022 -> 11008
11008/128 = 86