Synthesizer: Rethinking Self-Attention for Transformer Models
Synthesizer: Rethinking Self-Attention for Transformer Models
核心:
该论文调查了基于dot-product self-attention机制在transformer模型性能的重要性和贡献。
本文提出SYNTHESIZE模型在没有token-token interaction时,学习synthetic attention weights(合成的注意力权重)。 Dot-product content-based attention能用简单的变体(如
原创
2021-09-17 17:10:30 ·
655 阅读 ·
0 评论