回答一些关于深度神经网络的基本问题

最新推荐文章于 2025-08-15 15:36:50 发布

原创最新推荐文章于 2025-08-15 15:36:50 发布 · 502 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习

深度学习同时被 2 个专栏收录

2 篇文章

订阅专栏

深度神经网络

2 篇文章

订阅专栏

本文深入解析了深度神经网络(DNN)的基本概念、工作原理及优化技巧。探讨了DNN相较于传统机器学习的优势，并详细介绍了反向传播算法的过程，以及如何通过正则化避免过拟合现象。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Deep Neural Network

个人认为，可以在不了解dnn背后原理的情况下，使用dnn解决问题（黑箱），但是想要更好的使用dnn，还是要下功夫了解dnn是怎么work的。

什么是DNN?

DNN 是一种以输入输出单元为基本组成成分，以连接这些单元的有向网络为主要算法结构，并最终构建一个可以接受输入数据，输出预测结果的有向图。它有两个重要的特性：1. 网络结构可以被修改，工程师可以根据任务需要，对网络结构进行调整，以提升预测效果；2. 目前有不少非常优秀的工具和平台，可以很好的将DNN应用到各种机器学习任务中。

为什么DNN可以比传统机器学习效果好？

首先，DNN有坚实的数学理论，universal approximation threom在理论上证明了任何连续函数都可以用DNN进行拟合。思路很简单：为了逼近任意的连续函数，我们只需要能在极小的区间，产生任意大小的凸起就可以了（最终我们可以把所有这样的小区间拼接在一起，就得到所需的函数）。和积分的思想差不多。
其次，DNN可以更好的提取原始数据的特征，而不像传统机器学习那样，需要人工提取。最后，DNN也不是万能的，并不是在所有问题上都比传统的机器学习方法好，要依情况而论。

DNN的back-propagation如何工作的？

DNN通过剃度下降算法对网络进行优化。它的优化过程就是反向传播。
首先，我们最终希望计算的是 $\frac{\partial C}{\partial w^l_{jk}}$ 和 $\frac{\partial C}{\partial b^l_j}$ ，但是又不能直接一个一个参数的计算，因此我们通过一个中间变量来描述两个剃度：

符 号 说 明 ： j 是 当 前 层 级 l 的 节 点 个 数 ， k 是 上 一 层 级 l - 1 的 节 点 个 数 首 先 任 意 一 个 节 点 可 以 由 以 下 两 式 表 示 ： z l j = \sum k w l j k a l - 1 k + b l j a l j = σ (z l j) (激 活 函 数) 节 点 的 剃 度 可 以 表 示 为 ： δ l j = \partial C \partial z l j δ l j = \sum k \partial C \partial a l k \partial a l k \partial z l j 要 求 的 剃 度 可 以 表 示 为 ： \partial C \partial w l j k = \partial C \partial z l j \cdot \partial z l j \partial w l j k = δ l j \cdot \partial ( w l j k \cdot a l - 1 k ) \partial w l j k = δ l j \cdot a l - 1 k \partial C \partial b l j = δ l j (和 上 式 同 理) 网 络 的 层 级 之 间 节 点 的 关 联 可 以 表 示 为 ， 也 就 是 怎 么 通 过 上 一 层 的 δ l + 1 j 计 算 下 一 层 的 δ l j ： δ l j = \partial C \partial z l j = \sum k \partial C \partial z l + 1 k \partial z l + 1 k \partial z l j = \sum k \partial z l + 1 k \partial z l j δ l + 1 k ∵ z l + 1 k = \sum j w l + 1 k j a l j + b l + 1 k = \sum j w l + 1 k j σ (z l j) + b l + 1 k ∴ \partial z l + 1 k \partial z l j = w l + 1 k j σ' (z l j) δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l) 最 后 根 据 误 差 函 数 ， 计 算 输 出 层 的 误 差 δ l j ： 由 δ l j = \sum k \partial C \partial a l k \partial a l k \partial z l j 可 以 得 知 ， \partial C \partial a l k 是 一 个 关 于 a l k 的 函 数 ， a l k 就 是 输 出 层 的 输 出 结 果 ， 而 \partial a l k \partial z l j 是 一 个 关 于 z l j 的 函 数 ， 也 是 可 以 计 算 的 。

$\begin{eqnarray} 符号说明：j是当前层级l的节点个数，k是上一层级l-1的节点个数\\ \\ 首先任意一个节点可以由以下两式表示：\\ z^l_j = \sum_k w^l_{jk} a^{l-1}_k+b^l_j \\ a^l_j = \sigma(z^l_j) \ (激活函数) \\ \\ 节点的剃度可以表示为：\\ \delta^l_j = \frac{\partial C}{\partial z^l_j} \\ \delta^l_j = \sum_k \frac{\partial C}{\partial a^l_k} \frac{\partial a^l_k}{\partial z^l_j} \\ \\ 要求的剃度可以表示为：\\ \frac{\partial C}{\partial w^l_{jk}} = \frac{\partial C}{\partial z^l_{j}} \cdot \frac{\partial z^l_{j}}{\partial w^l_{jk}} \\ = \delta^l_j \cdot \frac{\partial (w^l_{jk}\cdot a^{l-1}_{k}) }{\partial w^l_{jk}} \\ = \delta^l_j \cdot a^{l-1}_k \\ \\ \frac{\partial C}{\partial b^l_j} = \delta^l_j (和上式同理) \\ \\ 网络的层级之间节点的关联可以表示为，也就是怎么通过上一层的\delta^{l+1}_j计算下一层的\delta^{l}_j：\\ \delta^l_j = \frac{\partial C}{\partial z^l_j} \\ = \sum_k \frac{\partial C}{\partial z^{l+1}_k} \frac{\partial z^{l+1}_k}{\partial z^l_j} \\ = \sum_k \frac{\partial z^{l+1}_k}{\partial z^l_j} \delta^{l+1}_k \\ \because z^{l+1}_k = \sum_j w^{l+1}_{kj} a^l_j +b^{l+1}_k = \sum_j w^{l+1}_{kj} \sigma(z^l_j) +b^{l+1}_k \\ \therefore \frac{\partial z^{l+1}_k}{\partial z^l_j} = w^{l+1}_{kj} \sigma'(z^l_j) \\ \delta^l = ((w^{l+1})^T \delta^{l+1}) \odot \sigma'(z^l) \\ \\ 最后根据误差函数，计算输出层的误差\delta^{l}_j：\\ 由\delta^l_j = \sum_k \frac{\partial C}{\partial a^l_k} \frac{\partial a^l_k}{\partial z^l_j} 可以得知，\frac{\partial C}{\partial a^l_k}是一个关于a^l_k的函数，a^l_k就是输出层的输出结果，\\ 而\frac{\partial a^l_k}{\partial z^l_j}是一个关于z^l_j的函数，也是可以计算的。 \\ \end{eqnarray}$

什么是DNN的过拟合

举一个非常典型的例子，具体可以看链接
假设我们有N个二维的数据点：
error
我们可以用一个复杂的多项式去逼近这些数据点，
error
我们也可以用一个较为简单的接近线性的函数去逼近这些数据点，
error
从误差来说，复杂的多项式拟合的效果要比简单的多项式拟合的好得多。
但从另一个角度来说，现实世界中的事物规律，往往都是由简单的模型或者过程产生的，因此简单的模型可以更好的泛化，从而更好的适应新的数据。复杂的模型为了更好的拟合数据，倾向于制造非常多的特例以解释每个数据发生的原因，然而简单的模型则是用简单的理由去解释，如果有误差，可以归结于数据收集的误差。

正则化的目的也就在于此，通过对w进行约束，从而让整个模型变得更简单一点。
以下是常用的L2和L1正则化约束项对w的剃度下降更新过程的影响：

L 2 正 则 采 用 w 2 作 为 约 束 w \to w 越 大 ， 衰 减 越 多 w - η \partial C 0 \partial w - η λ n w = (1 - η λ n) w - η \partial C 0 \partial w

$\begin{eqnarray} L2正则采用w^2作为约束 \\ w \rightarrow & w-\eta \frac{\partial C_0}{\partial w}-\frac{\eta \lambda}{n} w = \left(1-\frac{\eta \lambda}{n}\right) w -\eta \frac{\partial C_0}{\partial w} \\ w越大，衰减越多 \end{eqnarray}$

L 1 正 则 采 用 | w | 作 为 约 束 w \to w' = w - η λ n sgn (w) - η \partial C 0 \partial w 衰 减 量 不 随 着 w 的 变 化 而 变 化 ， 但 是 当 w 为 0 时 ， 衰 减 量 会 同 时 变 为 0

$\begin{eqnarray} L1正则采用|w|作为约束 \\ w \rightarrow w' = w-\frac{\eta \lambda}{n} \mbox{sgn}(w) - \eta \frac{\partial C_0}{\partial w} \\ 衰减量不随着w的变化而变化，但是当w为0时，衰减量会同时变为0 \end{eqnarray}$

也就是，不管L2还是L1，目的都在于让w衰减，从而变得更小一点。
那么为什么w变小了之后，模型会变得更简单呢？
可以从两个角度来说，当w变小了之后，w所对应的x的变化 $\nabla x$ ，所产生的影响也会相应变得小，从而限制模型尝试用特例来拟合数据点；另一方面，当w接近于0时，对应的x的取值几乎对整个模型产生不了影响了，相当于是被常数化了。

为什么训练DNN是困难的

训练DNN的过程中，有一个非常常见的困难，那就是gradient vanishing。以下是对neuralnetworksanddeeplearning中对gradient vanishing的解释的总结，更多细节参见官网：
首先看下图，既可以看作是DNN中的一条传播路径，也可以看作是一个只有单个神经元的多层神经网络，以及对应节点b1的剃度。

事实上，一个DNN正是由非常多的这样的路径所组成的。
我们假设这个网络使用的激活函数都是sigmoid，

从sigmoid的剃度值变化函数可以看出本身sigmoid的剃度取值范围就是比较低的，而且在0-1范围内，衰减速度很快。而经过多层的累乘之后，一个节点的数值变化对损失函数的影响会变得很小，导致层级越低的节点训练越慢越困难。
tanh的剃度取值变化稍微比sigmoid好一点：

但同样会让剃度变得很小。
RELU可以比较好的解决这个问题，因为RELU不设定上限。
不过RELU依然有一个下限，这也是Leaky RELU试图解决的。