1. 内容简介
这篇文章是今年1月Meta发表的一篇对Transformer的解构工作。
它对Transformer进行了更深入的解析和考察,发现Transformer的self attention机制等价于一个无限状态的MSRNN(multi-state RNN),并在此基础上对MSRNN进行了优化,提出了一个TOVA的MSRNN压缩策略,使之效果超过了其他的MSRNN,并能够与Transformer本身相提并论。而在内存方面,则显著优于经典的Transformer模型。

下面,我们就来具体看一下文中对于Transformer的具体考察以及文中提出的TOVA方法究竟是怎样的一个设计思路。
2. 方法介绍
1. 基础回顾
在解构Transformer以及引入TOVA之前,文中首先回顾了一下RNN和Transformer本身,这里,为了保持文章在结构上的完整性,我们也简略的回顾一下RNN和Transformer本身。
1. RNN
首先的话,RNN的话是一个迭代的解构,模型本身维护一个隐态 h t h_t ht,然后根据输入 x t x_t xt进行迭代:
x t l + 1 , h t l = f ( x t l , h t − 1 l ) x_t^{l+1}, h_{t}^{l} = f(x_t^l, h_{t-1}^l) xtl+1,htl=f(xtl,ht−1<

本文深入解析了Transformer的自注意力机制,揭示其与无限状态的MSRNN等价,并提出TOVA优化策略,实验证明TOVA在长文本理解和生成任务中表现出色,挑战现有模型。
最低0.47元/天 解锁文章
435

被折叠的 条评论
为什么被折叠?



