论文链接: https://www.aminer.cn/pub/6178c43c5244ab9dcbb2b868?f=cs
谷歌、OpenAI和华沙大学的一个团队提出了一种新的用于语言建模的高效Transformer架构Hourglass,在ImageNet32上达到新的SOTA,证明拥有一个明确的分层结构是Transformer能有效处理长序列的关键。Hourglass在给定相同计算量和存储量的情况下,可以产生比Transformer更好的结果。>>加入极市CV技术交流群,走在计算机视觉的最前沿Transformer模型在很多不同的领域都取得了SOTA,包括自然语言,对话,图像,甚至音乐。每个Transformer体系结构的核心模块是注意力模块,它为一个输入序列中的所有位置对计算相似度score。
然而,Transformer在输入序列的长度较长时效果不佳,因为它需要计算时间呈平方增长来产生所有相似性得分,以及存储空间的平方增长来构造一个矩阵存储这些score,因此将它们扩展到长序列(如长文档或高分辨率图像)是非常费时费内存的。
对于需要长距离注意力的应用,目前已经提出了几种快速且更节省空间的方法,如常见的稀疏注意力。
稀疏注意力机制通过从一个序列而不是所有可能的Pair中计算经过选择的相似性得分来减少注意机制的计算时间和内存需求,从而产生一个稀疏矩阵而不是一个完整的矩阵。
这些稀疏条目可以通过优化的方法找到、学习,甚至随机化,如Performer、Sparse Transformers、Longformers、RoutingTransformers、Reformers和BigBird。
虽然,稀疏注意力引入了许多技术来修改注意机制,但是,整体Transformer的架构并没有改变。这些稀疏注意机制降低了自我注意的复杂性,但仍然迫使模型要处理与输入相同长度的序列。
为了缓解这些问题,来自谷歌、OpenAI和华沙大学的团队提出了一种新的用于语言建模的高效Transformer架构,称之为Hourglass。
AMiner,让AI帮你理解科学!https://www.aminer.cn
AMiner推荐论文:Hierarchical Transformers Are More Efficient Language Models
谷歌、OpenAI和华沙大学的研究团队提出Hourglass Transformer,这是一种改进的语言建模架构,旨在有效处理长序列。Hourglass Transformer在保持相同计算量和存储量的情况下,相对于传统Transformer能获得更好的结果。该架构解决了Transformer在处理长序列时的效率问题,通过减少注意力计算的复杂性和内存需求,特别是在处理如ImageNet32这样的大型数据集时表现出了优越性能。Hourglass Transformer的设计表明,明确的分层结构对于处理长距离依赖至关重要,并且为未来的长序列建模提供了新思路。

最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



