Bert的Transformer原理

原创已于 2024-12-29 19:16:33 修改 · 667 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型

于 2024-12-07 21:20:47 首次发布

LLM理论专栏收录该内容

12 篇文章

订阅专栏

多义词如何应对：

答：通过Self attention，不同的上下文，对同一个"苹果"，得到截然不同的embedding激活值；

Multi-head的作用：

有些类似CNN里用的多个卷积核得到多个Channel的特征图；

从不同的角度去看，每个head侧重不同的特征维度，注意力放在和当前词在某些视角上相似的上下文词。

Attention是矩阵运算：

：对Q或K的特征维度，进行开平方。因为分子是多个乘积加和到一起，方差变大了，除以这个d是为了将方差复原。

值太大的话，梯度的反向传播会失效。

模型定义：

d_model是Input和Output的维度；

（如果用了Group-MHA，则k和v的矩阵列数会减少N倍，减少了参数量、计算量、kv-cache量）

Attention:

query的维度顺序：(batch, head, seq_len, feature-dimention)

key经过转置之后：(batch, head, feature-dimention, seq_len)

PyTorch的@矩阵乘法，是对最里面2个维度构成的矩阵，进行的矩阵乘法。

dropout的作用：防止过拟合；适当降低影响力大的token的影响；减少sharp的梯度，增强训练稳定性。

query和key乘完之后：(batch, head, seq_len, seq_len)

前向计算：

注意：入参q,k,v，在Self-attention计算时，都是本句子tokens的上游激活；在Cross-attention计算时，只有q是本句子tokens的上游激活，k和v都是encoder句子tokens的对应层的；

乘完各自的变换矩阵W之后，query、key、value的维度都是:

(batch, seq_len, all-feature-dimention)

经过多头注意力划分，得到:

(batch, seq_len, head, per-head-feature-dimention)

对中间2个维度进行转置，得到：

(batch, head, seq_len, per-head-feature-dimention)

经过Attention计算完成之后，又将中间两个维度转置回来，相当于将所有head的矩阵concat到一起了；

LayerNormalization:

注意，是对每个token，其所有特征维度，进行标准化。

$\gamma和\beta$ 是可学习的，维度是hidden-size的维度；

残差层：

好处：在层数多的网络里，有一条直达捷径，可以让梯度直接传到到前面；解决了梯度消失问题；

全连接FFN层：

2个矩阵乘法，中间的激活的维度d_ff，可以不等于输入和输出的维度d_model；

2个矩阵乘法之间，有ReLU和Dropout

Position Embedding:

i是第几维度的特征；t是token所在句子中的位置；

i小的时候，w接近1，值随t的变化大；

i大的时候，w接近0，值随t的变化小；

特性1：句子再长，也能拿到位置编码向量；

特性2：两个token之间，保持一定的距离，无论他俩在句子中的什么位置，2个token的位置编码的点乘，都是不变的：

代码：

Decoder的Masked Self-attention:

Decoder侧，每个token只能把句子左侧和自己的token，参与计算；

代码：

softmax之前，将mask的维度，赋予极小负数，e的x次方接近0，softmax之后，该维度的值就接近0；

Decoder的Cross-Attention:

代码：

Self-Attention, Q、K、V的输入，都是decoder侧的tokens的上游激活值；

Cross-Attention，Q的输入是decoder侧的，K、V的输入是encoder侧的tokens的对应层的激活值；

（注意：以上激活值，在attention内部，还要乘以各自的W矩阵，才得到Q、K、V）