文献阅读：Transformers are Multi-State RNNs

最新推荐文章于 2024-07-27 23:39:44 发布

原创

最新推荐文章于 2024-07-27 23:39:44 发布 · 1.3k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#TOVA #Multi State RNN #Transformer #Meta #LLM

本文深入解析了Transformer的自注意力机制，揭示其与无限状态的MSRNN等价，并提出TOVA优化策略，实验证明TOVA在长文本理解和生成任务中表现出色，挑战现有模型。

文献阅读：Transformers are Multi-State RNNs

文献链接：https://arxiv.org/abs/2401.06104
GitHub链接：https://github.com/schwartz-lab-NLP/TOVA

1. 内容简介

这篇文章是今年1月Meta发表的一篇对Transformer的解构工作。

它对Transformer进行了更深入的解析和考察，发现Transformer的self attention机制等价于一个无限状态的MSRNN（multi-state RNN），并在此基础上对MSRNN进行了优化，提出了一个TOVA的MSRNN压缩策略，使之效果超过了其他的MSRNN，并能够与Transformer本身相提并论。而在内存方面，则显著优于经典的Transformer模型。

在这里插入图片描述

下面，我们就来具体看一下文中对于Transformer的具体考察以及文中提出的TOVA方法究竟是怎样的一个设计思路。

2. 方法介绍

1. 基础回顾

在解构Transformer以及引入TOVA之前，文中首先回顾了一下RNN和Transformer本身，这里，为了保持文章在结构上的完整性，我们也简略的回顾一下RNN和Transformer本身。

1. RNN

首先的话，RNN的话是一个迭代的解构，模型本身维护一个隐态 $h_t$ ，然后根据输入 $x_t$ 进行迭代：

$x_t^{l+1}, h_{t}^{l} = f(x_t^l, h_{t-1}^l)$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。