参考paper: Attention is all you need
发现一篇比较不错的讲transformer的文章,英文原版在这里。
现把它整理一下,有些词便于理解保留英文原单词。
Transformer的high level look
需要翻译的句子(法语)进入transformer后,出来翻译后的句子(英语)。
进入transformer, 看到它是由encoding部分和decoding部分构成
进一步拆解,每个encoding部分由一系列的encoder构成(paper中是6个,当然这个数字也可以调整),decoding部分由相同数量的decoder构成。
encoder们的结构是相同的(但是它们不共享参数),每个encoder又由两部分组成。
encoder的input先进入self attention层,在过一个单词时,这个self attention可以同时关注句子里的其他单词,该层的输出会进入到feed-forward网络,每个位置的单词都会有一个完全相同的feed-forward网络。
decorder也有encoder的两层,同时在两层之间还有一个attention层,帮助decoder聚焦在句子相关的部分上。

具体示例
下面来看一个input如何经过transformer而得到output。
假设输入一个句子,含有2个单词,首先把单词转为word embedding,是self attention层的输入,z是self attention的输出。
(训练的时候长度由训练集中最长的句子决定)

可以看到各单词是同时进入encoder的,它们在self attention层中有联系,但是在feed forward层是各自独立的(因为

本文深入解析Transformer模型的工作原理,包括其编码器与解码器结构、自我注意力机制、多头注意力机制等核心概念,并介绍如何通过Transformer进行序列到序列的翻译任务。
最低0.47元/天 解锁文章
742

被折叠的 条评论
为什么被折叠?



