ML 2021 Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth
动机
基于注意力的架构在机器学习中已经无处不在,并在transformer网络中发现了有效的用途。因此,开发工具来理解transformer的内部工作原理和一般注意力是至关重要的,这既有助于阐明现有的模型,也有助于设计更有效的未来模型。然而,对于基于注意力的架构,其具有效用的原因的理解仍然有限。
方法
这项工作提出了一种理解自注意网络(SANs)的新方法。这项工作提供了关于由多个自我注意层堆叠而成的网络的操作和感应偏向的新见解。它们的输出可以分解为一个较小项的总和,每个项都涉及一个跨层注意头序列的操作。
原创
2021-03-30 23:04:52 ·
787 阅读 ·
0 评论