深度前馈网络（三）

最新推荐文章于 2025-05-13 15:48:10 发布

原创

最新推荐文章于 2025-05-13 15:48:10 发布 · 180 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #算法

本文介绍了深度学习中的反向传播算法，它利用链式法则计算神经网络的梯度，减少数值化求解梯度的计算代价。计算图和链式法则的概念帮助我们理解如何通过复合函数求导。反向传播算法的实现包括前向传播计算输出，然后通过反向传播计算梯度。算法的计算成本与图中边的数量成比例，有效地减少了重复计算。

反向传播和其他微分算法

输入 $x$ 提供初始信息，然后传播到每一层的隐藏单元，最终产生输入 $y^\hat{y}$ ，这称之为前向传播。在训练过程中，前向传播可以持续向前，直到它产生一个标量代价函数 $J(θ)J(\theta)$ 。而反向传播算法则允许来自代价函数的信息通过网络向后流动，以便计算梯度（减少数值化求解梯度的计算代价）。实际上，反向传播仅仅是指用于计算梯度的方法，而不是用于多层神经网络的整个学习算法（这种算法叫随机梯度下降，是使用梯度来进行学习）。在学习算法中，我们最常见的是代价函数关于参数的梯度，即 $∇θJ(θ)\nabla _\theta J(\theta)$ 。其实，它也可以计算任意函数的梯度 $∇xf(x,y)\nabla _x f(x, y)$ ，其中 $x$ 是待求导数的变量，而 $y$ 是函数的另外一组输入而已。

计算图：
为了精确描述反向传播算法，需要使用更为精确的计算图语言。这里，我们使用图中的每一个节点来表示一个变量（标量、向量、矩阵、张量）。我们引入操作概念，是指一个或者多个变量的简单函数，可以通过将多个操作复合在一起来描述更为复杂的函数，操作的返回或者输出可以是标量，甚至向量。计算图中的边是有向的。

微积分中的链式法则：
用于计算复合函数的导数。标量的链式法则很直观，我们可以将其扩展到多维空间。假设 $\in \mathbb{R}^m$ ， $\in \mathbb{R}^n$ ， $\in \mathbb{R}$ ， $\mathcal{g}(x)$ ， $z = f (y)$ ，那么：
$\frac{\partial z}{\partial x_i} = \sum_{j}^{} \frac{\partial z}{\partial y_j} \frac{\partial y_j}{\partial x_i}$ 使用向量记法，等价表示为：
$\nabla _x z = (\frac{\partial y}{\partial x} )^T \nabla _y z$