【Transformer详解】Transformer中的Q、K、V矩阵：形状必须一致吗？

最新推荐文章于 2025-11-06 16:10:47 发布

原创最新推荐文章于 2025-11-06 16:10:47 发布 · 1.4k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #矩阵

Transformer 专栏收录该内容

2 篇文章

订阅专栏

Transformer中的Q、K、V矩阵：形状必须一致吗？

一、引言

Transformer模型的核心是自注意力机制，而查询(Query)、键(Key)和值(Value)矩阵（简称Q、K、V）是这一机制的核心组成部分。许多初学者常有一个疑问：这三个矩阵的形状必须一致吗？如果不一致会发生什么？本文将深入探讨这个问题，通过理论分析和实例说明Q、K、V矩阵的形状关系及其对注意力计算的影响。

二、注意力机制基本原理回顾

自注意力机制的计算公式如下：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中：

$Q$ : 查询矩阵 (Query)
$K$ : 键矩阵 (Key)
$V$ : 值矩阵 (Value)
$d_k$ : 键向量的维度

三、Q、K、V矩阵的形状要求

（一）基本形状要求

矩阵	形状要求	说明
Q	`[batch_size, seq_len_q, d_k]`	查询矩阵
K	`[batch_size, seq_len_k, d_k]`	键矩阵，最后一维必须与Q相同
V	`[batch_size, seq_len_v, d_v]`	值矩阵，序列长度必须与K相同

（二）形状一致性要求总结

矩阵对	必须一致的维度	可以不同的维度
Q和K	最后一维（特征维度）`d_k`	序列长度`seq_len`
K和V	序列长度`seq_len`	最后一维（特征维度）
Q和V	无强制要求	所有维度都可以不同

（三）为什么有这样的要求？

Q和K的最后一维必须相同：因为需要计算 $QK^T$ ，矩阵乘法的规则要求Q的列数必须等于K的列数。
K和V的序列长度必须相同：因为注意力权重矩阵的形状为[seq_len_q, seq_len_k]，需要与V矩阵（形状[seq_len_v, d_v]）相乘，矩阵乘法要求seq_len_k = seq_len_v。
V的最后一维可以任意：注意力机制的输出形状为[seq_len_q, d_v]，由V的最后一维决定。

四、形状不一致的情况分析

情况1：Q和K的特征维度不同

假设：

Q: [batch_size, seq_len_q, d_q]
K: [batch_size, seq_len_k, d_k]
其中 d_q ≠ d_k

结果：直接计算 $QK^T$ 会失败，因为矩阵乘法要求Q的列数(d_q)等于K的列数(d_k)。

解决方法：通过线性变换将Q和K投影到相同的特征空间：

# 将Q和K投影到相同的维度
d_common = 256  # 公共维度
Q_proj = nn.Linear(d_q, d_common)(Q)
K_proj = nn.Linear(d_k, d_common)(K)
attention = torch.matmul(Q_proj, K_proj.transpose(-2, -1))

情况2：K和V的序列长度不同

假设：

K: [batch_size, seq_len_k, d_k]
V: [batch_size, seq_len_v, d_v]
其中 seq_len_k ≠ seq_len_v

结果：计算注意力权重与V的乘积时会失败，因为注意力权重形状为[seq_len_q, seq_len_k]，而V的形状为[seq_len_v, d_v]，矩阵乘法要求seq_len_k = seq_len_v。

解决方法：确保K和V来自同一源或具有相同的序列长度。如果是编码器-解码器注意力，通常K和V都来自编码器，因此序列长度相同。

情况3：Q和V的特征维度不同

结果：这是允许的，并且是常见情况。注意力输出的特征维度由V决定，与Q无关。

五、实际应用中的示例

示例1：自注意力机制

在标准的自注意力中，Q、K、V通常来自同一输入，因此形状完全相同：

# 输入x: [batch_size, seq_len, d_model]
x = torch.randn(32, 10, 512)  # 批量大小32，序列长度10，特征维度512

# 线性变换得到Q、K、V
WQ = nn.Linear(512, 64)  # 投影到64维
WK = nn.Linear(512, 64)
WV = nn.Linear(512, 128)  # 值维度可以与查询/键不同

Q = WQ(x)  # [32, 10, 64]
K = WK(x)  # [32, 10, 64]
V = WV(x)  # [32, 10, 128]

# 计算注意力
attn_weights = torch.softmax(torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(64), dim=-1)
output = torch.matmul(attn_weights, V)  # [32, 10, 128]

示例2：编码器-解码器注意力

在编码器-解码器架构中，Q来自解码器，K和V来自编码器：

# 编码器输出
encoder_output = torch.randn(32, 15, 512)  # [batch_size, seq_len_enc, d_model]

# 解码器输入
decoder_input = torch.randn(32, 8, 512)    # [batch_size, seq_len_dec, d_model]

# 线性变换
WQ = nn.Linear(512, 64)
WK = nn.Linear(512, 64)
WV = nn.Linear(512, 128)

Q = WQ(decoder_input)  # [32, 8, 64]
K = WK(encoder_output) # [32, 15, 64] - 序列长度与Q不同，但特征维度相同
V = WV(encoder_output) # [32, 15, 128] - 序列长度与K相同

# 计算交叉注意力
attn_weights = torch.softmax(torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(64), dim=-1)
output = torch.matmul(attn_weights, V)  # [32, 8, 128]

示例3：多头注意力

在多头注意力中，Q、K、V被分割成多个头：

# 输入x: [batch_size, seq_len, d_model]
x = torch.randn(32, 10, 512)

# 线性变换
WQ = nn.Linear(512, 512)
WK = nn.Linear(512, 512)
WV = nn.Linear(512, 512)

Q = WQ(x)  # [32, 10, 512]
K = WK(x)  # [32, 10, 512]
V = WV(x)  # [32, 10, 512]

# 分割成8个头
batch_size, seq_len, d_model = Q.shape
num_heads = 8
head_dim = d_model // num_heads

Q = Q.view(batch_size, seq_len, num_heads, head_dim).transpose(1, 2)  # [32, 8, 10, 64]
K = K.view(batch_size, seq_len, num_heads, head_dim).transpose(1, 2)  # [32, 8, 10, 64]
V = V.view(batch_size, seq_len, num_heads, head_dim).transpose(1, 2)  # [32, 8, 10, 64]

# 计算注意力
attn_weights = torch.softmax(torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(head_dim), dim=-1)
output = torch.matmul(attn_weights, V)  # [32, 8, 10, 64]

# 合并头
output = output.transpose(1, 2).contiguous().view(batch_size, seq_len, d_model)  # [32, 10, 512]

六、形状不匹配的处理策略

当Q、K、V形状不匹配时，可以采用以下策略：

投影到相同空间：使用线性层将Q、K、V投影到相同的特征空间。
掩码处理：使用注意力掩码处理序列长度不一致的情况。
填充或截断：对较短的序列进行填充，或对较长的序列进行截断。
使用适配器：设计特殊的适配器网络来处理形状不匹配。

七、总结

Q、K、V矩阵的形状不需要完全一致，但必须满足特定的维度匹配条件：

Q和K的**最后一维（特征维度）**必须相同，否则无法计算 $QK^T$ 。
K和V的序列长度必须相同，否则无法计算注意力权重与V的乘积。
V的最后一维可以任意，它决定了注意力输出的特征维度。

理解这些形状关系对于正确实现和调试Transformer模型至关重要。在实际应用中，通过合理的投影和变换，可以灵活地处理不同形状的Q、K、V矩阵，从而适应各种复杂的应用场景。

附录：常见形状组合表

场景	Q形状	K形状	V形状	是否有效	说明
标准自注意力	[B, L, D]	[B, L, D]	[B, L, D]	是	所有形状相同
不同值维度	[B, L, D]	[B, L, D]	[B, L, D’]	是	V的特征维度可以不同
编码器-解码器	[B, Lq, D]	[B, Lk, D]	[B, Lk, D’]	是	K和V序列长度相同
特征维度不匹配	[B, L, Dq]	[B, L, Dk]	[B, L, Dv]	否	Dq ≠ Dk
序列长度不匹配	[B, Lq, D]	[B, Lk, D]	[B, Lv, D]	否	Lk ≠ Lv