最近transformer在cv领域崭露头角,分类效果直追CNN。也趁机来补习一波在NLP领域已经火了很久的transformer。本文是在看过李宏毅老师的教程之后的理解,意在用最简单的表述讲解transformer。
为什么用transformer

在seq2seq模型中,最常用的是RNN,但是RNN无法并行计算;而CNN虽然可以并行,但需要多层堆积才可以对全局进行感知(类似于感受野)。因此两个模型的效率都不是太高。所以我们想要用一个模型来取代之,此时Google一篇论文《Attention is all you need》应运而生,即transformer。

Attention机制

transformer里面最重要的一环就是self-attention。attention机制中有一个三元组(q,k,v),q表示query,用于match其他的key;k表示key,用于被query来match;v表示value,表示相应的key的取值。在上图中,输入x是若干个词嵌入,首先经过一个线性变换到a,随后通过三个分支分别得到(q,k,v)这个三元组向量。

最低0.47元/天 解锁文章
2172





