【PyTorch】torch.matmul() 函数: 矩阵乘法(矩阵点积)

torch.matmul() 函数详解

torch.matmul() 是 PyTorch 中用于执行 矩阵乘法(矩阵点积) 的函数,支持 1D、2D、3D 及更高维度张量的广义矩阵乘法,是深度学习中非常常用的线性代数运算。


1. 基本语法

torch.matmul(tensor1, tensor2) → Tensor
参数说明
tensor1, tensor2要相乘的两个张量(维度可以是 1D、2D 或更高)
返回值两个张量的矩阵乘积,遵循广播规则

2. 不同维度输入的行为

2.1 两个 1D 张量(向量点积)

a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])

result = torch.matmul(a, b)
print(result)  # 输出: tensor(32)

计算的是:
1 × 4 + 2 × 5 + 3 × 6 = 32 1 \times 4 + 2 \times 5 + 3 \times 6 = 32 1×4+2×5+3×6=32


2.2 1D × 2D 或 2D × 1D(向量和矩阵)

# 1D × 2D,向量乘矩阵
a = torch.tensor([1.0, 2.0])         # shape: (2,)
b = torch.tensor([[3.0, 4.0], 
                  [5.0, 6.0]])       # shape: (2, 2)

print(torch.matmul(a, b))           # shape: (2,)
# 输出: tensor([13., 16.])

[ 1 , 2 ] × [ 3 4 5 6 ] = [ 13 , 16 ] [1, 2] \times \begin{bmatrix}3 & 4\\5 & 6\end{bmatrix} = [13, 16] [1,2]×[3546]=[13,16]

# 2D × 1D,矩阵乘向量
a = torch.tensor([[3.0, 4.0], 
                  [5.0, 6.0]])       # shape: (2, 2)
b = torch.tensor([1.0, 2.0])         # shape: (2,)

print(torch.matmul(a, b))           # shape: (2,)
# 输出: tensor([11., 17.])

2.3 两个 2D 张量(标准矩阵乘法)

a = torch.tensor([[1, 2], [3, 4]])   # (2, 2)
b = torch.tensor([[5, 6], [7, 8]])   # (2, 2)

print(torch.matmul(a, b))
# 输出:
# tensor([[19, 22],
#         [43, 50]])

2.4 批量矩阵乘法(3D 或更高)

a = torch.randn(10, 3, 4)  # 表示 10 个 (3×4) 的矩阵
b = torch.randn(10, 4, 5)  # 表示 10 个 (4×5) 的矩阵

result = torch.matmul(a, b)  # 输出: (10, 3, 5)

广播规则:
对于更高维度的张量,matmul 会按照批次维度进行 广播并执行批矩阵乘法


3. 与 @ 运算符等价

a = torch.randn(2, 3)
b = torch.randn(3, 4)

# 等价写法
result1 = torch.matmul(a, b)
result2 = a @ b

4. 与 torch.mm()torch.bmm() 区别

函数适用维度描述
torch.matmul()任意维度广义矩阵乘法,推荐使用
torch.mm()仅 2D × 2D标准矩阵乘法
torch.bmm()仅 3D × 3D批矩阵乘法(batch matrix multiplication)

5. 错误示例

a = torch.randn(3, 4)
b = torch.randn(2, 3)

torch.matmul(a, b)  # ❌ 尺寸不匹配 (4 ≠ 2)

注意:

  • 要保证 matmul(a, b)a 的最后一维 == b 的倒数第二维

6. 常见用途

  • 实现线性层(如:y = x @ W.T + b
  • 注意力机制中的 Q·Kᵀ 操作
  • Transformer 中的矩阵操作
  • 图神经网络中的邻接矩阵乘法
  • batch 处理中的多样本矩阵运算

7. 总结

特性说明
作用执行广义矩阵乘法
支持维度1D、2D、3D、甚至更高维
支持广播
常用替代@ 运算符
推荐用途适用于所有矩阵乘法场景
### torch.matmul 对三维矩阵的操作 `torch.matmul` 是 PyTorch 中的一个通用矩阵乘法函数,能够处理不同维度的张量。对于三维矩阵而言,它会按照批量的方式执行矩阵乘法。 #### 示例代码 以下是 `torch.matmul` 处理三维矩阵的具体示例: ```python import torch # 定义两个三维张量 (batch_size=2, n=3, m=4 和 batch_size=2, p=4, q=5) a = torch.tensor([[[1, 2], [3, 4], [5, 6]], [[7, 8], [9, 10], [11, 12]]]) b = torch.tensor([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) print("张量 a 形状:", a.shape) # 输出: torch.Size([2, 3, 2]) print("张量 b 形状:", b.shape) # 输出: torch.Size([2, 2, 3]) # 执行矩阵乘法 result = torch.matmul(a, b) print("结果形状:", result.shape) # 输出: torch.Size([2, 3, 3]) print("结果:") print(result) ``` 在这个例子中,张量 `a` 的形状为 `[2, 3, 2]`,表示有两组大小为 `(3, 2)` 的矩阵;张量 `b` 的形状为 `[2, 2, 3]`,表示有两组大小为 `(2, 3)` 的矩阵。`torch.matmul` 将每一对对应的矩阵相乘,并返回一个新的三维张量,其形状为 `[2, 3, 3]`[^1]。 #### 关键解析 - **批量维度匹配**:如果输入张量具有相同的第一个维度,则该维度被视为批量维度。在此情况下,`torch.matmul` 会对每一组对应的数据分别进行矩阵乘法。 - **高维扩展**:当处理超过二维的张量时,`torch.matmul` 自动沿最后一个两个维度应用矩阵乘法规则[^2]。 - **与其他函数的区别**:相比 `torch.mm` 和 `torch.bmm`,`torch.matmul` 更具灵活性,因为它不仅限于特定维度的张量操作[^3]。 #### 应用场景 在深度学习模型中,尤其是涉及批量数据处理的情况下,`torch.matmul` 常被用来实现高效的矩阵运算。例如,在神经网络的全连接层中,权重矩阵与输入特征之间的乘可以通过此函数快速完成。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

彬彬侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值