[2022]李宏毅深度学习与机器学习第四讲（必修）-self-attention_model decides the number of labels itself-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45920982/article/details/127974667

本文深入探讨自注意力机制在深度学习中的应用，包括其实现方式、与CNN及RNN的对比，并介绍其在语言识别和图像处理等领域的实践案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[2022]李宏毅深度学习与机器学习第四讲（必修）-self-attention

做笔记的目的
输出的类型
Self-attention

做笔记的目的

1、监督自己把50多个小时的视频看下去，所以每看一部分内容做一下笔记，我认为这是比较有意义的一件事情。
2、路漫漫其修远兮，学习是不断重复和积累的过程。怕自己看完视频不及时做笔记，学习效果不好，因此想着做笔记，提高学习效果。
3、因为刚刚入门深度学习，听课的过程中，理解难免有偏差，也希望各位大佬指正。

输出的类型

Each vector has a label
whole vector sequence has a label
Model decides the number of labels itself
Each vector has a label，可以用一个神经网络直接预测出label，但是如果向量间有联系可能就会比较难办。一种方法可以是设置一个窗口把这些向量都输入进来，但是如果window很大时，那么参数就会非常多，容易overfitting，这里可以用self-attention。

Self-attention

在这里插入图片描述

可以self-attention加全连接，来实现一些奇妙的功能。

具体实现

因为自己直接就知道self-attention的实现，所以这里就放一些图片，self-attention有很多实现的方法但是这里只讲Dot-product。在这个方法里面有一步归一化，可以用挺多方法的，这里用的是softmax。
在这里插入图片描述

从矩阵角度看

在这里插入图片描述

最终是这样的

这里我们可以设置多个头也就是multi，因为相关信息不止一个，可能有很多种相关信息，设置多个头就可以学习到这些信息，具体做法如下：

这里可以看到self-attention没有考虑到位置信息，所以在要考虑位置信息的任务里，可以在一开始加上位置编码。在这里插入图片描述
位置编码可以有很多种，同时位置编码甚至可以学习出来。什么样的位置编码更好，这是一个有待研究的问题。

应用

语言识别
在这里插入图片描述
语音辨识并不需要看全局信息，同时在语言识别的任务里有很多向量，所以实际中也不可能让其看全局信息，因为矩阵和长度成平方的关系。所以这里可以用局部的attention

图像

可以将图片看成一个5*10个3维向量。具体的应用如下：
在这里插入图片描述

与其他模型的比较

self-attention vs CNN

在这里插入图片描述
因为self-attention是可以看到全局信息的，所以CNN可以看成简化版的self attention，self-attention比CNN的弹性更大，所以需要更多的数据来训练模型，下面也证实了

当训练数据比较小时，CNN的结果好，但是self-attention在较大的数据集上效果好。