Attention Is All Your Need
Paper : Attention Is All Your NeedCode : official摘要本文提出了经典的Attention与Multi Head Attention 机制,并利用这两部分构造了一个Transformer结构,为BERT的提出打下基础。作者在NLP相关的数据集上进行测试,相比CNN和RNN给出了以下几个优点并行度高,训练时间短表现更好可以更好的处理长距离依赖关系,从全局的角度处理输入和输出的依赖关系Transformer 结构从NLP模型架构的角度来看,.
原创
2020-07-24 15:36:39 ·
233 阅读 ·
0 评论