什么是Transformer? Transformer是使用了attention机制的深度学习模型,它考虑到输入的不同部分所带来的影响。它主要用在NLP领域和CV领域类似于RNN,Transformer主要用来处理序列数据,比如自然语言处理中的翻译和文本总结。与RNN不同的是,Transformer不必顺序的处理数据。attention机制可以对输入序列里任何一个位置产生上下文。而不必从头到尾的处理。这种特性可以允许更多的并行,从而节省训练时间。