前言
谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。
Transformer算法简介
Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),由于以上原因导致transformer有如下优势:
- 模型表达能力较强,由于self-attention机制考虑到了句子之中词与词之间的关联,
- 抛弃了RNN的循环结构,同时借用了CNN中的残差结构加快了模型的训练速度。
接下来我们来看看transformer的一些细节:
-
首先Scaled Dot-Product Attention步骤是transformer的精髓所在,作者引入Q,W,V参数通过点乘相识度去计算句子中词与词之间的关联重要程度。其大致过程如图所示,博主将会在实战部分具体介绍此过程如何实现。
Scaled Dot-Product Attention