【AI】矩阵乘为什么是加权求和？

矩阵乘与加权求和的关系

原创于 2025-11-20 15:48:43 发布 · 983 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#AI #自注意力

假设我们已经计算好了2x2的注意力权重矩阵 A 和 2x3 的值矩阵 V 。（我们用小一点的矩阵，这样方便手算）。

注意力权重矩阵 A (Attention Weights) ，维度是 2x2 。
- A 的第1行 [0.8, 0.2] 代表：计算第1个输出词时，给第1个输入词0.8的权重，给第2个输入词0.2的权重。
- A 的第2行 [0.1, 0.9] 代表：计算第2个输出词时，给第1个输入词0.1的权重，给第2个输入词0.9的权重。

A = [[0.8, 0.2],
     [0.1, 0.9]]

值矩阵 V (Value) ，维度是 2x3 。

V 的第1行 [1, 10, 100] 是第1个输入词的Value向量。
V 的第2行 [2, 20, 200] 是第2个输入词的Value向量。

V = [[1, 10, 100],
     [2, 20, 200]]

现在我们要计算输出矩阵 Z = A * V 。

角度一：标准的矩阵乘法计算

我们来计算输出 Z 的第1行，第1个元素 Z[0, 0] ： Z[0, 0] = A 的第1行 * V 的第1列 = (0.8 * 1) + (0.2 * 2) = 0.8 + 0.4 = 1.2

再计算 Z 的第1行，第2个元素 Z[0, 1] ： Z[0, 1] = A 的第1行 * V 的第2列 = (0.8 * 10) + (0.2 * 20) = 8 + 4 = 12

再计算 Z 的第1行，第3个元素 Z[0, 2] ： Z[0, 2] = A 的第1行 * V 的第3列 = (0.8 * 100) + (0.2 * 200) = 80 + 40 = 120

所以，输出矩阵 Z 的第1行是 [1.2, 12, 120] 。
这个计算过程完全符合你说的“A的每一行乘以V的每一列”（这里应该是A，不是Z）。

角度二：加权求和的概念意义

现在我们换个方式来思考如何得到 Z 的第1行 [1.2, 12, 120] 。

根据我们的描述， Z 的第1行应该是 V 矩阵中所有行向量的加权求和，权重来自于 A 矩阵的第1行 [0.8, 0.2] 。

我们来算一下： Z 的第1行 = (0.8 * V 的第1行) + (0.2 * V 的第2行)

Z 的第1行 = 0.8 * [1, 10, 100] + 0.2 * [2, 20, 200]

Z 的第1行 = [0.81, 0.810, 0.8100] + [0.22, 0.220, 0.2200]

Z 的第1行 = [0.8, 8, 80] + [0.4, 4, 40]

Z 的第1行 = [0.8 + 0.4, 8 + 4, 80 + 40]

Z 的第1行 = [1.2, 12, 120]

结论

两种不同角度的计算，得到了完全相同的结果。

角度一的理解是“如何算” ：它描述了矩阵乘法在计算机或纸上一步步执行的机械过程（行乘以列）。
角度二的描述是“算的是什么” ：它描述了这个运算的最终效果和概念——用 A 矩阵的一行作为权重，去混合（加权求和） V 矩阵的所有行向量，从而得到输出 Z 的一行。

在解释算法时，我们更倾向于使用“加权求和”这种说法，因为它更直观地揭示了注意力机制的本质：根据注意力权重，将所有输入词的“内容（Value）”以不同的比例融合起来，形成当前词的新的、包含上下文信息的表示。

所以，“加权求和”是对这个步骤背后意义的诠释。两个角度并不矛盾，而是同一枚硬币的两面。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。