1.介绍一下 FFN 块 计算公式?
FFN(Feed-Forward Network)块是Transformer模型中的一个重要组成部分,接受自注意力子层的输出作为输入,并通过一个带有 Relu 激活函数的两层全连接网络对输入进行更加复杂的非线性变换。实验证明,这一非线性变换会对模型最终的性能产生十分重要的影响。
FFN由两个全连接层(即前馈神经网络)和一个激活函数组成。下面是FFN块的计算公式:
FFN(x)=Relu(xW1+b1)W2+b2 \operatorname{FFN}(\boldsymbol{x})=\operatorname{Relu}\left(\boldsymbol{x} \boldsymbol{W}_{1}+\boldsymbol{b}_{1}\right) \boldsymbol{W}_{2}+\boldsymbol{b}_{2} FFN(
订阅专栏 解锁全文
1569

被折叠的 条评论
为什么被折叠?



