注意力机制 attention Transformer 笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_42806204/article/details/140226130

这里写自定义目录标题

注意力
加性注意力
缩放点积注意力
多头注意力
自注意力
Transformer
自注意力+缩放点积注意力：案例
自注意力+缩放点积注意力+多头注意力：案例

注意力

例子：有一个Python字典dictionary，有3个键和3个值
传递了一个单独的查询’color’

dictionary = {
   'color': 'blue', 'age': 22, 'type': 'pickup'}
result = dictionary['color']

查询（Q）是你要找的内容：‘color’
键（K）表示字典里有什么样的信息：‘color’, ‘age’, ‘type’
值（V）则是对应的信息：‘blue’, 22, ‘pickup’
在普通的字典查找中，字典会找到匹配的键，并返回其对应的值；
如果查询找不到完全匹配的键，也许你会期望返回最接近的值
如果你查找’species’，result 可能会期望返回’pickup’，因为它是最接近查询的匹配。

注意力汇聚的输出为值的加权和

查询的长度为q，键的长度为k，值的长度为v。
${\bf{q}} \in { {\mathbb R}^{1 \times q}},{ {\bf{k}}} \in { {\mathbb R}^{1 \times k}},{ {\bf{v}}} \in {\mathbb{R}^{1 \times v}}$
n个查询和m个键-值对
${\bf{Q}} \in { {\mathbb R}^{n \times q}},{\bf{K}} \in { {\mathbb R}^{m \times k}},{\bf{V}} \in {\mathbb{R}^{m \times v}}$
${\bf{a}}\left( { {\bf{Q}},{\bf{K}}} \right) \in {\mathbb{R}^{n \times m}}$ 是注意力评分函数
${\boldsymbol{\alpha}} \left( { {\bf{Q}},{\bf{K}}} \right) = {\rm{softmax}}\left( { {\bf{a}}\left( { {\bf{Q}},{\bf{K}}} \right)} \right) = \frac{ {\exp \left( { {\bf{a}}\left( { {\bf{Q}},{\bf{K}}} \right)} \right)}}{ {\sum\limits_{j = 1}^m {\exp \left( { {\bf{a}}\left( { {\bf{Q}},{\bf{K}}} \right)} \right)} }} \in {\mathbb{R}^{n \times m}}$ 是注意力权重
$f({\bf{Q}},{\bf{K}},{\bf{V}}) = {\boldsymbol{\alpha}} {\left( { {\bf{Q}},{\bf{K}}} \right)^ \top }{\bf{V}} \in {\mathbb{R}^{n \times v}}$ 是注意力汇聚函数

加性注意力

${\bf{q}} \in {\mathbb {R}^{1 \times q}},{\bf{k}} \in {\mathbb {R}^{1 \times k}}$
${\bf{W}}_q} \in { {\mathbb R}^{h \times q}},{ {\bf{W}}_k} \in { {\mathbb R}^{h \times k}},{ {\bf{w}}_v} \in { {\mathbb R}^{h \times 1}}$
$a({\bf{q}},{\bf{k}}) = {\bf{w}}_v^ \top {\rm{tanh}}({ {\bf{W}}_q}{ {\bf{q}}^ \top } + { {\bf{W}}_k}{ {\bf{k}}^ \top }) \in \mathbb {R}$ 是注意力评分函数

缩放点积注意力

${\bf{q}} \in { {\mathbb R}^{1 \times d}},{\bf{k}} \in { {\mathbb R}^{1 \times d}},{\bf{v}} \in { {\mathbb R}^{1 \times v}}$
$a\left( { {\bf{q}},{\bf{k}}} \right) = \frac{1}{ {\sqrt d }}{\bf{q}}{ {\bf{k}}^ \top } \in \mathbb{R}$ 是注意力评分函数
$f({\bf{q}},{\bf{k}},{\bf{v}}) = \alpha {\left( { {\bf{q}},{\bf{k}}} \right)^ \top }{\bf{v}} = {\rm{softmax}}\left( {\frac{1}{ {\sqrt d }}{\bf{q}}{ {\bf{k}}^ \top }} \right){\bf{v}} \in { {\mathbb R}^{1 \times v}}$ 是注意力汇聚函数

n个查询和m个键-值对
$\mathbf Q\in\mathbb R^{n\times d}, \mathbf K\in\mathbb R^{m\times d}, \mathbf V\in\mathbb R^{m\times v}$
${\bf{a}}\left( { {\bf{Q}},{\bf{K}}} \right) = \frac{1}{ {\sqrt d }}{\bf{Q}}{ {\bf{K}}^ \top } \in {\mathbb{R}^{n \times m}}$ 是注意力评分函数
$f({\bf{Q}},{\bf{K}},{\bf{V}}) = {\boldsymbol{\alpha}} {\left( { {\bf{Q}},{\bf{K}}} \right)^ \top }{\bf{V}} ={\rm{softmax}}\left( {\frac{1}{ {\sqrt d }}{\bf{Q}}{ {\bf{K}}^ \top }} \right){\bf{V}} \in {\mathbb{R}^{n \times v}}$ 是注意力汇聚函数

Attention Is All You Need

多头注意力

paddlepedia
L is the length of the sequence
d = 64 is the embedding dimension 是序列中用于表示每个符号的向量的长度
p = 64 is the dimension used in the attention function 是线性层的输出维度
h = 8
po = hd = 512

${\bf{q}} \in { {\mathbb R}^{1 \times {d_q}}},{\bf{k}} \in { {\mathbb R}^{1 \times {d_k}}},{\bf{v}} \in { {\mathbb R}^{1 \times {d_v}}}$