Attention is All You Need
Abstract
主流的序列转换模型基本上都是基于RNN或CNN的编码器-解码器配置,其中性能最优的模型还通过注意力机制连接编码器-解码器,所以本文提出了一种完全基于注意力机制的模型——Transformer,作者用一系列结果表示其模型更优秀,且可以推广到其他任务。
Introduction
在序列转换问题中,RNN尤其是LSTM和Gated NN,已被确立为最先进的方法。
RNN通常根据输入输出的序列位置进行计算,通常为隐藏状态 h t h_t ht由上一个隐藏状态 h t − 1 h_{t-1} ht−1和