Raki的读paper小记：Retentive Network: A Successor to Transformer for Large Language Models

爱睡觉的Raki

已于 2023-07-24 01:36:01 修改

阅读量638

点赞数 3

分类专栏：读paper NLP 文章标签： transformer 语言模型深度学习人工智能 chatgpt

于 2023-07-24 01:32:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Raki_J/article/details/131886803

版权

Abstract&Introduction&Related Work

研究任务
语言模型的基础架构
已有方法和相关工作
- S4，H3，Hyena，Linear Transformer
- 用核函数近似注意力，以便将自回归推理重写为循环形式
- 回归到使用循环模型进行高效推理，但牺牲了训练并行性。为了弥补这一点，使用元素级操作[PAA+23]进行加速，但同时损害了表示能力和性能
- 尝试用其他机制取代注意力，例如S4[GGR21]及其变体[DFS+22，PMN+23]
面临挑战
创新思路
- RetNet = linear attention + rope + 显式衰减（即 $\gamma$ ）
实验结论
实现了不可能三角，实现了O(1)推理

在这里插入图片描述

Retentive Networks

先来看一下Retention跟Attention的区别，首先第一眼感觉retention有点像RNN和LSTM

attention的计算方式是QK做矩阵乘法，使用query和key计算权重分布，对value加权

retention使用了一个线性衰减参数 $\gamma$ ，使用了一个状态向量S

给定输入 $X\in\mathbb{R}^{|x|\times d_{\mathrm{model}}}$ ，我们将其投影到一维函数 $v(n) = X_n · w_V$ 。考虑一个序列建模问题，通过状态 $s_n$ 将 $v (n)$ 映射为 $o (n)$ , 为简单起见，用 $v_n、o_n$ 表示 $v (n)$ 和 $o (n)$ , 以递归方式形式化映射过程：

$\begin{aligned}s_n&=As_{n-1}+K_n^\mathsf{T}v_n,&A\in\mathbb{R}^{d\times d},K_n\in\mathbb{R}^{1\times d}\\o_n&=Q_ns_n=\sum_{m=1}^nQ_nA^{n-m}K_m^\mathsf{T}v_m,&Q_n\in\mathbb{R}^{1\times d}\end{aligned}$

将vn映射到状态向量sn，并通过线性变换来递归地编码序列信息。接下来使投影 $Q_n$ 、 $K_n$ 变得与内容相关： $Q=XW_{Q},\quad K=XW_{K}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。