
NLP
可姆可汗
USTC CS
展开
-
Transformer的残差连接
在学习Transformer的过程中,编码器和解码器都用到了残差连接,下面我总结一下残差连接。假如我们的输入为X,要得到的输出为H(X)。那么我们可以通过 H = F(X) + X,转换为学习F。等得到F的输出后,在此基础上加上X即可得H的输出。在Transformer中,此时的F即是下图中的Multi-Head Attention和Feed Forward,我们再加上X即可得到需要的输出。下图中的Add & Norm中的Add即为此意。Norm的意思就是在后面跟了一个归一化层。论文原文中的公式原创 2020-12-21 22:15:00 · 14655 阅读 · 0 评论 -
模型微调(Fine Tune)
什么是 Fine Tune在深度学习中,我们一般从头开始学习权重矩阵,即:首先进行初始化,然后进行参数学习。但是在 Fine Tune 中,我们已经有了一个预训练模型,这个模型可以是他人训练好的优秀网络,比如VGG19等。Fine Tune 就是在这个预训练模型基础上的学习过程。下面举个例子:Y=W∗XY = W * XY=W∗X假设上面是我们要学的神经网络,W 初始化为 0,此时我们通过梯度下降法不断学习,得到最优目标值 0.5。如果刚开始的时候有人告诉你,W 的值应该在 0.47 左右,那原创 2020-11-05 10:54:38 · 864 阅读 · 1 评论 -
NLP好文链接
NLP将迎来黄金十年原创 2020-09-15 08:51:57 · 155 阅读 · 0 评论