【动手学习pytorch笔记】32.注意力机制基础

最新推荐文章于 2025-02-17 14:22:22 发布

原创最新推荐文章于 2025-02-17 14:22:22 发布 · 385 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #学习

pytorch学习笔记专栏收录该内容

42 篇文章

订阅专栏

注意力机制基础

理论

首先回忆一下卷积

一、卷积基于的两个原则

1、平移不变性

一个分类器，比如说我想识别小丁，那这个分类器进行分类的时候，应该是对于位置信息不敏感的，也就是说无论小丁出现在图片上的哪个位置，我用训练好的分类器，参数不变都是可以识别出哪个是小丁的

2、局部性

就是我不需要看到全局的信息，只需要看到周围一部分信息就行了

二、从全连接层应用上面连个原则变成卷积层

先说结论：

从全连接层 $hi,j=∑a,bvi,j,a,bxi+a,j+bh_{i,j}=\displaystyle\sum_{a,b}v_{i,j,a,b}x_{i+a,j+b}$

变成卷积层 $hi,j=∑a=−ΔΔ∑b=−ΔΔva,bxi+a,j+bh_{i,j}=\displaystyle\sum_{a=-\varDelta}^{\varDelta}\displaystyle\sum_{b=-\varDelta}^{\varDelta}v_{a,b}x_{i+a,j+b}$

变换过程：

类比在简单的全连接层，输入的x是有k个特征的向量，，w是二维矩阵大小（k * i），输出h是有i个特征的向量

现在我们的输入是x一张图片，二维矩阵，那么参数w变成了四维，输出h也是一个二维矩阵，

k,l相当于像素本身的信息，i,j相当于像素的位置信息

$hi,j=∑k,lwi,j,k,lxk,l=∑a,bvi,j,a,bxi+a,j+bh_{i,j} = \displaystyle\sum_{k,l}w_{i,j,k,l}x_{k,l}=\displaystyle\sum_{a,b}v_{i,j,a,b}x_{i+a,j+b}$

这里v是w的重新表示 $v_{i,j,a,b} = w_{i,j,i+a,j+b}$

然后根据平移不变性，参数v应该不依赖于i,j的信息，所以 $v_{i,j,a,b} = v_{a,b}$

即 $hi,j=∑a,bva,bxi+a,j+bh_{i,j} = \displaystyle\sum_{a,b}v_{a,b}x_{i+a,j+b}$

再根据局部性，并不需要我们看那么远的信息，即限制了a,b的大小（上下或者左右动），当动的范围超过 $Δ\varDelta$ 就不要了

即 $hi,j=∑a=−ΔΔ∑b=−ΔΔva,bxi+a,j+bh_{i,j}=\displaystyle\sum_{a=-\varDelta}^{\varDelta}\displaystyle\sum_{b=-\varDelta}^{\varDelta}v_{a,b}x_{i+a,j+b}$

总结：平移不变性解释了为什么我可以用同一个卷积核扫过整张图片

局部性解释了，为什么我要用那么大的一个卷积核

注意力机制

简单来说卷积关注的是一个像素点周围，也就是卷积核大小的信息，但这些信息未必是最应该被关心的，注意力机制则是显示的考虑随意线索（意思是有意关心的线索）

随意线索被称之为查询
每一个线索是一个值（value）和不随意线索（key）的对
通过注意力池化层有偏向性的选择某些输入

在这里插入图片描述

具体注意力机制是怎么发展成现在的样子呢？

一、非参的注意力池化层

给定数据 $x_i,y_i),i=1,...,n$
平均池化层是最简单的方案： $f(x)=1n∑i=1nyif(x)=\frac{1}{n}\displaystyle\sum_{i=1}^ny_i$

这里 $f (x) 的 x$ 是query，即一个新数据进来的时候，关注的是所有信息的平均
更好的方案是60年代提出的Nadaraya-Waston核回归

$f(x)=∑i=1nK(x−xi)∑j=1nK(x−xj)yif(x)=\displaystyle\sum_{i=1}^n\frac{K(x-x_i)}{\sum_{j=1}^nK(x-x_j)}y_i$

$x$ ：query

$x_j$ ：key

$y_i$ ：value

K是核函数，类似SVM，用来计算新数据x（query）和旧数据 $x_i$ （key）之间的距离，相当于对所有给定数据算百分比权重（像softmax），乘对应的value，思想上像KNN

如果K使用高斯核 $K(u)=12πexp(−u22)K(u)=\frac{1}{\sqrt{2\pi}}exp(-\frac{u^2}{2})$

那么 $=\displaystyle\sum_{i=1}^n\frac{exp(-\frac{1}{2}(x-x_i)^2)}{\sum_{j=1}^nexp(-\frac{1}{2}(x-x_j)^2)}y_i$

$=∑i=1nsoftmax(−12(x−xi)2)yi=\displaystyle\sum_{i=1}^nsoftmax(-\frac{1}{2}(x-x_i)^2)y_i$

二、参数化注意力机制

在之前的基础上引入可学习的w

$f(x)==∑i=1nsoftmax(−12((x−xi)w)2)yif(x)==\displaystyle\sum_{i=1}^nsoftmax(-\frac{1}{2}((x-x_i)w)^2)y_i$

学习一个w来决定注意力，这里的w还是一个标量，以上我们讨论的都是q,k,v都是标量的情况

总结： $f(x)=∑i=1nα(x,xi)yi=∑i=1nsoftmax(−12(x−xi)2)yif(x)=\displaystyle\sum_{i=1}^n\alpha(x,x_i)y_i=\displaystyle\sum_{i=1}^nsoftmax(-\frac{1}{2}(x-x_i)^2)y_i$

$α\alpha$ ：注意力分数 $s o f t m a x$ 之后：注意力权重

在这里插入图片描述

拓展到高维

以上我们讨论的都是q,k,v都是标量的情况，现在拓展到高维

$q∈Rq,m对key−value(k1,v1),ki∈Rk,vi∈Rvq\in\mathbb{R}^q,m对key-value(k_1,v_1),k_i\in\mathbb{R}^k,v_i\in\mathbb{R}^v$

注意力： $f(q,(k1,v1),...,(km,vm))=∑i=1mα(q,ki)vi∈Rvf(q,(k_1,v_1),...,(k_m,v_m))=\displaystyle\sum_{i=1}^m\alpha(q,k_i)v_i\in\mathbb{R}^v$

$α(q,ki)=softmax(a(q,ki))=exp(a(q,ki))∑j=1nexp(a(q,kj))∈R\alpha(q,k_i)=softmax(a(q,k_i))=\frac{exp(a(q,k_i))}{\sum_{j=1}^nexp(a(q,k_j))}\in\mathbb{R}$

现在问题在于如何计算 $a(q,k_i)$ ，有两种方式

Additive Attention
- 可学习参数： $Wk∈Rh×k,Wq∈Rh×q,v∈RhW_k\in\mathbb{R}^{h\times k},W_q\in\mathbb{R}^{h\times q},v\in\mathbb{R}^{h}$
  
  $a(k,q)=v^Ttanh(W_kk+W_qq)$
最后计算出 $a$ 是一个数，相当于把key和query合并起来放到一个隐藏层大小为h，输出为1的单隐藏层MLP中

适用于q,k,v大小不同的情况
Scaled Dot-Product Attention（transformer用的）
- 如果query和key是同样的长度 $q,ki∈Rdq,k_i\in\mathbb{R}^d$ ，那么可以 $a(q,ki)=<q,ki>/da(q,k_i)=<q,k_i>/\sqrt{d}$
- 向量化版本：n个query，m个key-value
  - $Q∈Rn×d,K∈Rm×d,V∈Rm×vQ\in\mathbb{R}^{n\times d},K\in\mathbb{R}^{m\times d},V\in\mathbb{R}^{m\times v}$
  - 注意力分数： $a(Q,K)=QKT/d∈Rn×ma(Q,K)=QK^T/\sqrt{d}\in\mathbb{R}^{n\times m}$
  - 注意力池化： $f=softmax(a(Q,K))V∈Rn×vf=softmax(a(Q,K))V\in\mathbb{R}^{n\times v}$
    
    这时候你可能问Dot-Product Attention，没有可学习参数啊，在transformer里，Q,K,V是一个词向量通过三个矩阵 $W_q,W_k,W_v$ 映射过来的