为什么说线性注意力和线性RNN是同质的？_线性注意力机制是rnn吗-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_63315166/article/details/145211026

线性注意力和线性RNN的共同点？嗯，简单来说就三点：

就像你在追剧，你可能会发现RNN和线性注意力其实是以两种类似但略有不同的方式进行的：

RNN的方式：你追着一集一集看，看到第1集后你会记住一些关键的内容，到第2集时，你会更新你的记忆，然后继续推进。基本上是：看 → 更新记忆 → 看下一集，每一集的内容都依赖前面的一集。
线性注意力的方式：你做了个笔记，在看每一集的时候，你不断地把内容记录下来：看 → 记笔记 → 看下一集。每一集的笔记不是对上一集的直接记忆，而是将之前的记忆压缩并记录下来。

本质上，这两者的操作都类似：它们通过“记忆”机制将每一步的信息传递、压缩，最终形成一个固定大小的状态，就像你追剧时逐步填充的笔记本一样。

这个问题挺有趣的，因为它涉及到信息压缩的代价。假设你玩的是传话游戏，大家的任务是把信息从第1个人传到第100个人。

原始Transformer：每个人都可以直接和其他所有人交流——信息传递没有任何损失。
线性注意力：只能和前面的人传话，像一个链条一样。每个token只能和前面的一些token交互，信息被一步步地“压缩”。所以，当信息从第1个人传到第100个人时，它会经历99次的“转述”，而每次转述都会导致信息的损失。可能一开始的“我想吃薯片”的信息，到最后只会变成“薯”

这就是线性注意力没有“全局感受野”的原因——远处的信息在经过多个“传递”后变得模糊不清。信息传递虽然仍然有效，但它无法完整地捕捉到远处token的详细信息。