终结篇了
书接前文:小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(3) (qq.com)
本章把Trasfomer剩的一点网络讲完
上节课我们讲完了attetion的机制,我们再复习一下(这玩意就得反复看,加深记忆)
我下面再换几张图,换个角度来看,来自于复旦的Qiu Xipeng教授的slide
首先自注意机制它也不是Transformer才有的,实际上以前也有RNN+self-attention来解决词相关性长距离依赖问题的网络
如下图所示,我们为了让"The weather is nice today"的"The"去判断它和其他4个词的关系,我们可以让"The"这个向量去分别跟其他每个单词的向量做内积,然后走softmax做归一化之后,得到5个加起来为1的权重,然后再把W1到W5这5个权重分别乘以原始的向量做加权求和,就能得到带有新的带有词关联性的 new "

本文详细解析Transformer模型中的自注意力机制、残差连接和Layer Normalization,阐述它们如何增强特征表征和防止梯度消失。此外,还讨论了FFN层的作用以及在输出阶段如何使用top_k策略提高模型表现力。
最低0.47元/天 解锁文章
1395

被折叠的 条评论
为什么被折叠?



