【面筋】关于Attention

最新推荐文章于 2021-09-11 16:15:00 发布

原创

最新推荐文章于 2021-09-11 16:15:00 发布 · 144 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍了seq2seq模型的工作原理，包括Encoder和Decoder的职责，以及在长序列处理上的局限性。随后，文章阐述了Attention机制的引入原因、作用和流程，强调了其在处理输入序列差异化的重要性。Attention机制在多个领域的广泛应用，如自然语言处理和图像识别，以及其不同变体如Soft、Hard、Global和Local Attention的解释，使得模型能够更加聚焦于关键信息。

【面筋】关于Attention

一、seq2seq 篇

1.1 seq2seq （Encoder-Decoder）是什么？

介绍：seq2seq （Encoder-Decoder）将一个句子（图片）利用一个 Encoder 编码为一个 context，然后在利用一个 Decoder 将 context 解码为另一个句子（图片）的过程；
应用：
- 在 Image Caption 的应用中 Encoder-Decoder 就是 CNN-RNN 的编码 - 解码框架；
- 在神经网络机器翻译中 Encoder-Decoder 往往就是 LSTM-LSTM 的编码 - 解码框架，在机器翻译中也被叫做 Sequence to Sequence learning。

在这里插入图片描述

1.2 seq2seq 中的 Encoder 怎么样？

目标：将 input 编码成一个固定长度语义编码 context
context 作用：
- 1、做为初始向量初始化 Decoder 的模型，做为 decoder 模型预测y1的初始向量；
- 2、做为背景向量，指导y序列中每一个step的y的产出；
步骤：
- 1. 遍历输入的每一个Token(词)，每个时刻的输入是上一个时刻的隐状态和输入
- 1. 会有一个输出和新的隐状态。这个新的隐状态会作为下一个时刻的输入隐状态。每个时刻都有一个输出；
- 1. 保留最后一个时刻的隐状态，认为它编码了整个句子的语义编码 context，并把最后一个时刻的隐状态作为Decoder的初始隐状态；