什么是Self-attention？（Transfomer）

最新推荐文章于 2025-05-10 17:00:00 发布

不爱写程序的程序猿

最新推荐文章于 2025-05-10 17:00:00 发布

阅读量717

点赞数 3

分类专栏： AI 文章标签：神经网络机器学习人工智能 python 深度学习

本文链接：https://blog.youkuaiyun.com/weixin_45870904/article/details/118230513

版权

AI 专栏收录该内容

25 篇文章

订阅专栏

在这里插入图片描述

Self-attention（Transfomer）

基于台大李宏毅老师的课程

文章目录

Self-attention（Transfomer）

导读

Self-attention是最近很火的一种新的技术，传统的我们的神经网络输入都是一个vector，但如果我们想要多个vector作为输入该怎么办呢，我们想要一个a sequence of vector作为输入应该怎么做呢？这种需求是存在的，例如，一段声音信号就可以被处理为一串vector，或者一句文本，都可以作为a sequence of vector的信息了。
在这里插入图片描述

那么，我们该怎么做呢？
在这里插入图片描述
一个常见的想法是使用one-hot encoding，比如如果有10万个单词，我们就使用十万个基于one-hot encoding机制的向量去表征，显然，这种做法是很荒谬的。这样的向量表示，不能体现各个词之间有任何关系。
当然，目前存在一种word embedding这种方法：
在这里插入图片描述
下面，我们来看几种常见的对应多个向量输入的IO机制：
1.
输入和输出是一样数量的label，最经典的应用有词性分类。
推荐系统与一段语音的音标标注也是这种类型的应用

2.整个sequence输入的输出只有一个label。
在这里插入图片描述
常见的应用有一段文本的情绪识别，一段语音的说话者辨识，一个结构图是什么分子。
3.第三种就是由机器自己决定输出多少的任务。例如翻译-真正的语音辨识。
也就是sequence to sequence

在这里插入图片描述
好了，接下来我们来看看序列的标注（sequence labeling）

我们当然不能说每个向量单独作为一个输入放到一个神经网络里面，因为这个sequence是有语义联系关系的。为了解决这个问题，我们把几个向量联系起来。
在这里插入图片描述
我们开一个sequence-window，把整这个sequence-window里面的向量都联系起来作为输入给全连接层
但是如果我们把sequence-window开的很大，这就容易出现很多问题

要看训练资料（湾湾喜欢这么翻译）中的sequence的长度，我们要让window覆盖其中最长的才行
由于输入很大，那么整个模型就需要很多参数，这意味着计算量很大且很容易出现overfitting

好勒，导读结束了，为了解决这个问题，那我们现在终于来到了这一部分的重点-self attention。

Self-attention

在这里插入图片描述
其考虑了整个一串向量后得到的输出，再丢进fully connected network(Dense层）

很吊的一篇论文《attention is all you need!》
论文链接：attention is all you need!
Self-attention层可以是放在输入层之后，也可以是在中间的hidden layer
当然一个network里面可以存在多个attention layer：
在这里插入图片描述

在这里插入图片描述
每一个b都是考虑了所有的a才产生的

找出一个sequence中哪些向量与它相关是我们要解决的问题！

Self-attention的计算过程

计算α（相关因子）：
在这里插入图片描述
一般使用 Dot-product-用在transformer的方法

$两个输入向量与 w^q（矩阵）相乘后得到一个向量，两个向量在做一个Dot-product，（做一个element-wise后求和）$
当然，我们需要分别计算一个向量与sequence里面其他所有向量的α，然后再做一个normalization（这里使用的是softmax）-需要注意的是，计算自己与自己的相关因子也很重要，你可以通过实验来验证这一点。：
在这里插入图片描述

soft-max只是最常用的，用其他也行，什么Relu甚至会有很好的结果
接下来，我们来计算b：

抽取重要的资讯。每一个a去乘*一个新的矩阵Wv，再与a‘1.1相乘相加得到b1，如果某一个a’1.x值很大（两个向量的关系性很强），最终的求和就可能会接近这个值，这个值其就可能会支配b1这个结果。-这也是其work的一个重要原因和直觉
在这里插入图片描述