一文搞懂attention机制

最新推荐文章于 2025-05-12 16:43:29 发布

xz1308579340

最新推荐文章于 2025-05-12 16:43:29 发布

阅读量1.2w

点赞数 28

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签： attention 深度学习

本文链接：https://blog.youkuaiyun.com/xz1308579340/article/details/95330572

文章目录

翻譯地址：
https://towardsdatascience.com/intuitive-understanding-of-attention-mechanism-in-deep-learning-6c9482aecf4f

总览
https://zhuanlan.zhihu.com/p/31547842
0.了解seqtoseq模型，lstm,gru，变长输入映射到变长输出
1.什么是attention
2.不同的对齐方式确定了不同的attention
3.soft hard attention

1.简介

注意力是深度学习社区中最有影响力的想法之一。即使这种机制现在用于各种问题，如图像字幕等，它最初是在使用Seq2Seq模型的神经机器翻译的背景下设计的。在这篇博文中，我将考虑与运行示例相同的问题来说明这个概念。我们将使用注意力来设计一个将给定的英语句子翻译成马拉地语的系统，这与我在之前的博客中考虑的完全相同。

首先我们来看seqtoseq模型出了什么问题，

seq2seq模型通常由编码器 (encode)- 解码器(decode)架构组成，其中编码器处理输入序列并将信息编码/压缩/概括为固定长度的上下文向量（也称为“思想向量”）。该向量是整个输入序列的良好的压缩特征。然后用该上下文向量初始化解码器，使用该上下文向量开始生成变换后的输出。

这种固定长度的上下文矢量设计的一个关键和明显的缺点是系统无法记住更长的序列。一旦处理完整个序列，通常会忘记序列的早期部分。注意机制的诞生是为了解决这个问题。

让我们把它分解成更精细的细节。由于我已经解释了在我以前的博客中理解注意力所需的大部分基本概念，因此我将直接跳到问题的主题，而不再进一步说明。