Transformer编码器结构及运算过程的符号表示

最新推荐文章于 2025-10-20 14:27:58 发布

原创最新推荐文章于 2025-10-20 14:27:58 发布 · 1.2k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #transformer #深度学习

Transformer编码器结构及运算过程的符号表示

这篇文章主要是展示Transformer编码器的结构，同时尽量使用数学符号表达编码器的运算过程。

Transformer编码器的核心结构是多头注意力机制，本文从（单头）注意力机制开始描述，然后扩展到对编码器运算过程的描述。暂不涉及解码器的描述。

注意：此处介绍的注意力机制均为自注意力机制。

一、（单头）自注意力机制

输入

$X=[x_1, x_2, ..., x_m]$ ， $m$ 表示输入的token的数量（句子的长度）（在Transformer中是一个超参数，一般设置成128、256）。

$xi∈Rd×1x_i \in \mathbb{R}^{d\times 1}$ ， $d$ 表示embedding向量的维度（在Transformer中是一个超参数，一般设置成64、128、256）， $i = 1, ..., m$ 。

$\in \mathbb{R}^{d \times m}$ 。

查询（query）、键（key）、价值（value）

$qi=WQxiq_i = \textcolor{red}{W_Q} x_i$ ， $WQ∈Rd×d\textcolor{red}{W_Q} \in \mathbb{R}^{d \times d}$ ， $qi∈Rd×1q_i \in \mathbb{R}^{d \times 1}$ 。

$Q = [q_1, q_2, ..., q_m]$ ， $\in \mathbb{R}^{d \times m}$ 。

$ki=WKxik_i = \textcolor{red}{W_K} x_i$ ， $WK∈Rd×d\textcolor{red}{W_K} \in \mathbb{R}^{d \times d}$ ， $ki∈Rd×1k_i \in \mathbb{R}^{d \times 1}$ 。

$K = [k_1, k_2, ..., k_m]$ ， $\in \mathbb{R}^{d \times m}$ 。

$vi=WVxiv_i = \textcolor{red}{W_V} x_i$ ， $WV∈Rd×d\textcolor{red}{W_V} \in \mathbb{R}^{d \times d}$ ， $vi∈Rd×1v_i \in \mathbb{R}^{d \times 1}$ 。

$V = [v_1, v_2, ..., v_m]$ ， $\in \mathbb{R}^{d \times m}$ 。

注意力（attention）

$ai=σ(KTqiα)a_i = \sigma \left(\frac{K^{\mathrm{T}}q_i}{\alpha} \right)$ ， $α\alpha$ 是标量，表示放缩因子。 $ai∈Rm×1a_i \in \mathbb{R}^{m \times 1}$ 。 $σ(⋅)\sigma(\cdot)$ 表示softmax函数。
在这里插入图片描述

$A = [a_1, a_2, ..., a_m]$ ， $\in \mathbb{R}^{m \times m}$ 。
在这里插入图片描述

上下文/输出

$ci=Vai=a1iv1+a2iv2+...+amivm=V⋅σ(KTqiα)c_i = \textcolor{blue}{V} a_i = a_{1i}v_1 + a_{2i}v_2 + ... + a_{mi}v_m = \textcolor{blue}{V} \cdot \sigma \left( \frac{K^{\mathrm{T}}q_i}{\alpha} \right)$ ， $ci∈Rd×1c_i \in \mathbb{R}^{d \times 1}$ 。
在这里插入图片描述

$C = [c_1, c_2, ..., c_m]$ ， $\in \mathbb{R}^{d \times m}$ 。

总结

$\text{Attn}(X,X)$ 。 $Attn(⋅)\text{Attn}(\cdot)$ 表示自注意力模块，包含了前述计算query、key、value、注意力、上下文的过程。

自注意力模块只包含三个参数矩阵： $W_Q$ 、 $W_K$ 、 $W_V$ 。
在这里插入图片描述

二、多头自注意力机制

与单头自注意力机制相比，多头（multi-head）自注意力机制会按照“头（head）”的数量对输入进行划分。假设有 $h$ 个head，那么 $xi=[xi[1],xi[2],...,xi[h]]x_i = \left[ x_i^{[1]}, x_i^{[2]}, ..., x_i^{[h]} \right]$ ， $xi[j]∈Rdh×1x_i^{[j]} \in \mathbb{R}^{\frac{d}{h} \times 1}$ ， $j = 1, ..., h$ 。

每个head的自注意力处理一个 $x_i^{[j]}$ ，处理流程与单头自注意力机制相同，得到的输出是 $ci[j]∈Rdh×1c_i^{[j]} \in \mathbb{R}^{\frac{d}{h} \times 1}$ 。将每个head的输出进行拼接，才得到与输入 $x_i$ 对应的 $c_i$ 。

多头自注意力模块包含 $3 h$ 个参数矩阵。
在这里插入图片描述

三、Transformer编码器结构

如下图所示，Transformer编码器主要由一层多头自注意力和一层前馈网络组成。

多头自注意力

多头自注意力的过程如前文所述。此处有 $3 h$ 个参数矩阵： $W_Q^{[1]},...,W_Q^{[h]}, W_K^{[1]},...,W_K^{[h]}, W_V^{[1]},...,W_V^{[h]}$ 。

前馈网络

前馈网络一般使用一层线性层实现，不改变输入的维度： $X′=WuXX^{\prime} = \textcolor{red}{W_u} X$ ， $\leftarrow C + X$ ， $X′∈Rd×mX^{\prime} \in \mathbb{R}^{d \times m}$ 。

此处有1个参数矩阵 $Wu∈Rd×dW_u \in \mathbb{R}^{d \times d}$ 。

在这里插入图片描述

四、token编码（词表映射）与位置编码

输入 $X$ 在进入Transformer编码块之前还要经过token编码和位置编码。在经过token编码和位置编码之前，输入还只是一个个token（每个token都是一个整数，表示在词表中的索引）。

token编码

token编码就是将token转换成embedding，也即让输入经过一个embedding映射层 $E$ 。这个embedding映射层既可以是现成的，也可以是跟随模型一起训练得到的。

embedding映射层并不是一个线性层，更像是一个词表。假设模型能处理 $vocab_size\text{vocab\_size}$ 个词，每个词的embedding向量长度是 $d$ ，那么embedding映射层的这个词表大小就是 $vocab_size×d\text{vocab\_size} \times d$ 。

token转换成embedding的过程： $xi←E[xi,:]x_i \leftarrow E[x_i, :]$ 。

位置编码

最初的Transformer模型使用正弦和余弦函数来生成固定的位置编码，这些编码与模型的其他参数是分开的，不是通过学习得到的。
$PE_{(pos,2i)}=sin(pos/10000^{2i/d})\\PE_{(pos,2i+1)}=cos(pos/10000^{2i/d})$
其中， $p os$ 表示token的序号， $i$ 表示embedding的维度。