矩阵运算的魅力：如何用简单的数学构建强大的神经网络？

原创已于 2025-11-20 23:09:27 修改 · 1.9k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#矩阵 #神经网络 #线性代数

于 2025-07-01 11:21:08 首次发布

神经网络的数学之美专栏收录该内容

12 篇文章

订阅专栏

在神经网络的世界里，矩阵运算如同隐藏在背后的强大引擎，推动着整个网络的高效运行。

从输入数据的处理到权重的更新，从前向传播到反向传播，矩阵运算贯穿了神经网络的每一个环节。

今天，就让我们走进神经网络的基石，一起探索矩阵运算的魅力。

一、神经网络中的矩阵表示

神经网络作为一种强大的计算模型，在人工智能和机器学习领域扮演着至关重要的角色。

其核心机制在于神经元之间的连接以及信息的传递。

图1. 矩阵对连接关系的表示

从数学的角度来看，这些连接和信息传递（如数据、权重和偏置）过程可以通过矩阵和向量的运算来高效地表示和计算。

矩阵运算不仅简化了神经网络的计算过程，还提高了计算效率。

假设我们有一个简单的神经网络，包含一个输入层、一个隐藏层和一个输出层。

输入层有 $n$ 个神经元，隐藏层有 $m$ 个神经元，输出层有 $k$ 个神经元。
输入向量 $x\mathbf{x}$ 是一个 $n$ -维向量，表示输入数据。

图2. 神经网络计算过程

隐藏层的权重矩阵 $W(1)\mathbf{W}^{(1)}$ 是一个 $\times n$ 的矩阵，表示输入层到隐藏层的连接权重。隐藏层的输出向量 $h\mathbf{h}$ 是一个 $m$ -维向量，表示隐藏层的输出。
输出层的权重矩阵 $W(2)\mathbf{W}^{(2)}$ 是一个 $\times m$ 的矩阵，表示隐藏层到输出层的连接权重。输出层的输出向量 $y\mathbf{y}$ 是一个 $k$ -维向量，表示最终的输出结果。

二、矩阵乘法在神经网络中的应用

矩阵乘法是神经网络中最重要的运算之一。

它不仅用于前向传播，还用于反向传播中的梯度计算。

图3. 前向传播和反向传播原理图

矩阵乘法的高效性使得神经网络能够在大规模数据上进行快速计算。

2.1 前向传播中的矩阵乘法

在前向传播过程中，输入数据通过每一层的权重矩阵和激活函数逐步传递到输出层。

每一层的计算都可以表示为矩阵乘法和向量加法的形式。

例如，从输入层到隐藏层的计算可以表示为：

$z^{(1)} = W^{(1)}x + b^{(1)}$
$a^{(1)} = f(z^{(1)})$

从隐藏层到输出层的计算可以表示为：

$z^{(2)} = W^{(2)}a^{(1)} + b^{(2)}$
$a^{(2)} = f(z^{(2)})$

2.2 反向传播中的矩阵乘法

在反向传播过程中，梯度计算也依赖于矩阵乘法。

假设损失函数为，我们需要计算损失函数对每个权重的梯度。

根据链式法则，损失函数对权重矩阵 $W^{(2)}$ 的梯度可以表示为：

$\frac{\partial \mathcal{L}}{\partial W^{(2)}} = \frac{\partial \mathcal{L}}{\partial z^{(2)}} \cdot \frac{\partial z^{(2)}}{\partial W^{(2)}}$

式中， $∂L∂z(2)\frac{\partial \mathcal{L}}{\partial z^{(2)}}$ 是损失函数对输出层输入的梯度，维度为 $\times 1$ ； $∂z(2)∂W(2)\frac{\partial z^{(2)}}{\partial W^{(2)}}$ 是输出层输入对权重矩阵的导数，维度为 $\times m$ 。