Seq2Seq Attention输入输出维度分析-最详细

最新推荐文章于 2025-05-12 16:43:29 发布

原创

最新推荐文章于 2025-05-12 16:43:29 发布 · 4.9k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习

1. Attention

注意力机制就是为了解决当解码的序列太长时，越到后面效果就越差。因为在未引入注意力机制之前，解码时仅仅只依靠上一时刻的输出而忽略的编码阶段每个时刻的输出（“称之为记忆”）。注意力机制的思想在于，希望在解码的时刻能够参考编码阶段的记忆，对上一时刻输出的信息做一定的处理（也就是只注意其中某一部分），然后再喂给下一时刻做解码处理。这样就达到了解码当前时刻时，仅仅只接受与当前时刻有关的输入，类似与先对信息做了一个筛选（注意力选择）。Encoder 把所有的输入序列编码成了一个c向量，然后使用c向量来进行解码，因此，向量中必须包含了原始序列中的所有信息，所以它的压力其实是很大的，而且由于 RNN 容易把前面的信息“忘记”掉，所以基本的 Seq2Seq 模型，对于较短的输入来说，效果还是可以接受的，但是在输入序列比较长的时候，向量存不下那么多信息，就会导致生成效果大大折扣。

解码的时候参考编码阶段的记忆，对于encoder输出的信息做一定的筛选，保留重要的一部分，前筛。既然一个上下文c向量保存的信息有限，那么就引入多个c向量，称之为 $c_1, c_2,...$ 。在解码的时候，这里的 $c_i$ 对应着Decoder的解码位次，每次解码就利用对应的 $c_i$ 向量来解码.这里的每个 $c_i$ 向量其实包含了当前将要输出与输入序列各个部分重要性的相关信息。
下图是一个seq-seq模型中的参数维度。