神经网络中的链式法则解释

原创于 2025-10-21 10:35:16 发布 · 960 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #人工智能 #深度学习

部署运行你感兴趣的模型镜像

链式法则是微积分中用于求复合函数导数的核心法则，本质是解决“函数套函数”的求导问题，其核心逻辑是“从外到内、逐层求导再相乘”。

1. 核心定义（单变量情况）

若函数 ( y = f(u) )，且 ( u = g(x) )（即 ( y ) 是 ( x ) 的“复合函数”，( y = f[g(x)] )），则 ( y ) 对 ( x ) 的导数为：

$dydx=dydu⋅dudx\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$

含义：先求外层函数 ( f(u) ) 对中间变量 ( u ) 的导数 $\frac{dy}{du} )$ ，再求内层函数 ( g(x) ) 对自变量 ( x ) 的导数 $\frac{du}{dx} )$ ，最后将两个导数相乘。

2. 直观理解：“连锁反应”

可类比“速度的传递”——比如：

若 ( y ) 随 ( u ) 的变化率是 ( $dydu=2\frac{dy}{du} = 2$ )（( u ) 变1，( y ) 变2）；
( u ) 随 ( x ) 的变化率是 ( $dudx=3\frac{du}{dx} = 3$ )（( x ) 变1，( u ) 变3）；
则 ( y ) 随 ( x ) 的变化率就是 ( $\times 3 = 6$ )（( x ) 变1，( y ) 最终变6），这就是“链式”的含义。

3. 多变量扩展（偏导数）

若 ( z = f(u, v) )，且 ( u = g(x, y) )、( v = h(x, y) )（多变量复合），则 ( z ) 对 ( x ) 的偏导数为：
[
$∂z∂x=∂z∂u⋅∂u∂x+∂z∂v⋅∂v∂x\frac{\partial z}{\partial x} = \frac{\partial z}{\partial u} \cdot \frac{\partial u}{\partial x} + \frac{\partial z}{\partial v} \cdot \frac{\partial v}{\partial x}$
]

逻辑：每个中间变量（( u, v )）都对 ( x ) 有贡献，需分别求“外层对中间”“中间对自变量”的偏导数，再相加（类似“多路径叠加”）。

4. 简单示例

比如求 ( $y = \sin(x^2)$ ) 的导数：

外层函数：( $\sin(u)$ )，中间变量 ( $u = x^2$ )；
外层对中间的导数：( $dydu=cos⁡(u)\frac{dy}{du} = \cos(u)$ )；
中间对自变量的导数：( $dudx=2x\frac{du}{dx} = 2x$ )；
相乘得：( $dydx=cos⁡(u)⋅2x=2xcos⁡(x2)\frac{dy}{dx} = \cos(u) \cdot 2x = 2x\cos(x^2)$ )。