Day8 神经网络中的导数基础

神经网络中的导数基础及应用

最新推荐文章于 2025-06-20 23:32:53 发布

原创最新推荐文章于 2025-06-20 23:32:53 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #人工智能 #深度学习

深度学习的数学专栏收录该内容

15 篇文章

订阅专栏

Day8 神经网络中的导数基础

导数的定义

导数（Derivative）是微积分中的一个核心概念，用于描述函数在某一点的变化率。简单来说，导数就是函数值随自变量微小变化而产生的变化量，即斜率或变化率。假设有一个函数 $f (x)$ ，其中 $x$ 是自变量， $y = f (x)$ 是因变量。函数 $f (x)$ 在某一点 $x_0$ 处的导数表示为 $f'(x_0)$ ，也可以写作 $dydx\frac{dy}{dx}$ 或 $dfdx\frac{df}{dx}$ 。导数的定义是：

$f'(x_0) = \lim_{{h \to 0}} \frac{f(x_0 + h) - f(x_0)}{h}$

其中， $h$ 表示自变量 $x$ 的一个微小变化量，也经常用 $Δx\Delta x$ 标识。

注：希腊字母 ∆ 读作 delta，对应拉丁字母 D。此外，带有 '（prime）符号的函数或变量表示导函数。

在这里插入图片描述

神经网络中用到的导数公式

在神经网络中，导数主要用于计算损失函数对各个参数的梯度，从而进行反向传播和参数更新。以下是一些常用的导数公式：

常数函数的导数： $c^{'} = 0$ （ $c$ 为常数）
幂函数的导数： $x^a)' = ax^{a-1}$ （ $a$ 为常数且 $\neq 0$ ）, $a = 1 时有 (x)^{'} = 1$
指数函数的导数： $e^x)' = e^x$ , $e^{-x})' = -e^{-x}$
对数函数的导数： $(ln⁡x)′=1x(\ln x)' = \frac{1}{x}$ （ $x > 0$ ）
三角函数的导数： $(sin⁡x)′=cos⁡x(\sin x)' = \cos x$ ， $(cos⁡x)′=−sin⁡x(\cos x)' = -\sin x$

这些公式在神经网络中计算各层参数的梯度时非常有用。

导数符号

在神经网络中，我们经常使用以下符号来表示导数：

$dLdx\frac{dL}{dx}$ ：表示损失函数 $L$ 对变量 $x$ 的导数（在单变量情况下）。
- $c^{'} = 0$ （ $c$ 为常数），也可以记为 $dcdx=0\frac{dc}{dx}=0$
- $(x)^{'} = 1$ ，也可以记为 $dxdx=1\frac{dx}{dx}=1$
$∂L∂w\frac{\partial L}{\partial w}$ ：表示损失函数 $L$ 对权重 $w$ 的偏导数。(后续Day深入解释)
$∇L\nabla L$ ：表示损失函数 $L$ 关于所有参数的梯度向量。(后续Day深入解释)

导数的性质

导数具有一些重要的性质，这些性质在神经网络的梯度计算中非常有用：

线性性质：如果 $f^{'} (x)$ 和 $g^{'} (x)$ 都存在，那么 $(a f (x) + b g (x))^{'} = a f^{'} (x) + b g^{'} (x)$ 。
链式法则：如果 $u = g (x)$ 且 $g^{'} (x)$ 存在，那么 $(f (u))^{'} = f^{'} (u) g^{'} (x)$ 。这个法则在多层神经网络中计算梯度时至关重要。

证明 $e^{-x})' = -e^{-x}$

利用后Day的链式法则（复合函数的求导公式），我们可以简单地推导出标题中的公式，如下所示。

$e^{u}, \quad u = -x, \quad y' = \frac{dy}{dx} = \frac{dy}{du} \frac{du}{dx} = e^{u} \cdot (-1) = -e^{-x}$

分数函数的导数

分数函数（或称为有理函数）在数学中通常指形式为 $UV\frac{U}{V}$ 的函数，其中 $U$ 和 $V$ 都是关于自变量（如 $x$ ）的函数。分数函数的导数公式为：

$\left(\frac{U}{V}\right)' = \frac{U'V - UV'}{V^2}$

这个公式在神经网络中处理复杂函数时非常有用。例如，当损失函数中包含分数形式时，我们可以使用这个公式来计算其导数。

Sigmoid 函数的导数

Sigmoid 函数是神经网络中常用的激活函数之一，其定义为：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

Sigmoid 函数的导数有一个非常简洁的形式：

$\sigma'(x) = \sigma(x)(1 - \sigma(x))$

这个导数公式在神经网络的反向传播过程中非常重要，因为它用于计算激活函数的梯度。

为了从分数函数的导数公式推导出Sigmoid函数的导数公式，可以按照以下步骤进行：

定义Sigmoid函数： Sigmoid函数定义为： $\sigma(x) = \frac{1}{1 + e^{-x}}$ 这可以看作是一个分数函数，其中 $U = 1$ 且 $V = 1 + e^{-x}$ 。

应用分数函数的导数公式：分数函数的导数公式为： $\left(\frac{U}{V}\right)' = \frac{U'V - UV'}{V^2}$ 将 $U$ 和 $V$ 的定义代入此公式，得到：

$\sigma'(x) = \frac{U'(1 + e^{-x}) - 1 \cdot V'}{(1 + e^{-x})^2}$ 其中 $U^{'} = 0$ （因为 $U = 1$ 是常数），而 $V' = -e^{-x}$ （因为 $V = 1 + e^{-x}$ ）。

简化表达式：代入 $U^{'}$ 和 $V^{'}$ 的值，我们得到： $\sigma'(x) = \frac{0 \cdot (1 + e^{-x}) - 1 \cdot (-e^{-x})}{(1 + e^{-x})^2}$ $\frac{e^{-x}}{(1 + e^{-x})^2}$

进一步化简：注意到 $σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}$ ，我们可以将上面的表达式重写为：

$\sigma'(x) = \frac{e^{-x}}{(1 + e^{-x})} \cdot \frac{1}{(1 + e^{-x})}$ $\sigma(x) \cdot (1 - \sigma(x))$ 这里我们用到了 $σ(x)\sigma(x)$ 的定义，并且利用了 $\sigma(x) = \frac{e^{-x}}{1 + e^{-x}}$ 这一事实。

因此，我们成功地从分数函数的导数公式推导出了Sigmoid函数的导数公式： $\sigma'(x) = \sigma(x)(1 - \sigma(x))$

最小值的条件

一、基本概念

函数的最小值：
- 如果对于函数 $f (x)$ 的定义域内的所有 $x$ ，都有 $\geq f(a)$ ，则称 $f (a)$ 是函数 $f (x)$ 的最小值。
导数与函数单调性：
- 导数 $f^{'} (x)$ 反映了函数 $f (x)$ 在某一点的切线斜率，也反映了函数在该点附近的增减性。
- 当 $f^{'} (x) > 0$ 时，函数在该区间内单调递增；当 $f^{'} (x) < 0$ 时，函数在该区间内单调递减。

二、最小值的一阶必要条件

费马小定理（Fermat’s Theorem）：
- 如果函数 $f (x)$ 在点 $x = a$ 处取得局部最小值，且 $f (x)$ 在 $a$ 点可导，则必有 $f^{'} (a) = 0$ 。
- 这意味着，在最小值点处，函数的切线斜率为零，即函数在该点处“平缓”。

三、最小值的二阶充分条件

二阶导数的作用：
- 为了进一步确定一个临界点（即一阶导数为零的点）是最大值、最小值还是拐点，我们需要考察二阶导数。
二阶充分条件：
- 假设函数 $f (x)$ 在点 $x = a$ 处有一阶导数 $f^{'} (a) = 0$ ，且二阶导数 $f^{''} (a)$ 存在。
- 如果 $f^{''} (a) > 0$ ，则函数在 $x = a$ 处取得局部最小值。
- 如果 $f^{''} (a) < 0$ ，则函数在 $x = a$ 处取得局部最大值。
- 如果 $f^{''} (a) = 0$ ，则无法直接通过二阶导数判断该点的性质，可能需要进一步的分析（如考察更高阶的导数或利用其他方法）。

四、全局最小值与局部最小值

局部最小值：
- 只在函数定义域的某个小区间内是最小的值。
全局最小值：
- 在函数整个定义域内都是最小的值。
- 要找到全局最小值，通常需要考察函数的所有局部最小值，并比较它们的大小。

五、实例分析

考虑函数 $f(x) = x^2 + 4x + 4$ 。

求一阶导数：
- $f^{'} (x) = 2 x + 4$ 。
找临界点：
- 令 $f^{'} (x) = 0$ ，解得 $x = - 2$ 。
判断最小值：
- 计算二阶导数： $f^{''} (x) = 2$ 。
- 因为 $f^{''} (- 2) = 2 > 0$ ，所以函数在 $x = - 2$ 处取得局部最小值。
- 由于该函数是一个开口向上的抛物线，且在整个实数域内只有一个临界点，因此这个局部最小值也是全局最小值。