机器学习的求导公式

最新推荐文章于 2024-03-21 13:18:11 发布

jiongjiongai

最新推荐文章于 2024-03-21 13:18:11 发布

阅读量898

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/phoenix198425/article/details/79987407

本文详细探讨了机器学习中的损失函数和代价函数的求导公式。首先，介绍了损失函数的求导，通过激活函数和权重矩阵推导出dZ、dX、dW和db的表达式。接着，讲解了代价函数的求导，考虑整个样本集的情况，同样给出了dZ、dX、dW和db的更新规则。这些公式在梯度下降等优化算法中至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习的求导公式

损失函数的求导公式

设 $loss⁡(X)\operatorname {loss} \left (X\right )$ 为单个样本 $X$ 的损失函数，
$g\left (Z\right ) = \begin{pmatrix} \operatorname {g} \left ( z _{1} \right ) \\ \vdots \\ \operatorname {g} \left ( z _{n} \right ) \end{pmatrix}$ 即 $_{i} = \operatorname {g} \left ( z _{i} \right )$ ，其中 $g⁡\operatorname {g}$ 为激活函数。
$Z = W X + b$ 即 $_{i} = \sum \limits_{j} w _{i, j} x _{j} + b _{i}$
对于任意变量 $x,$ 记 $d⁡x=∂∂xloss⁡(X)\operatorname {d} x = \dfrac {\partial} {\partial x} \operatorname {loss} \left (X\right )$
则：
$d⁡Z=d⁡A∗g′(Z)\operatorname {d} Z = \operatorname {d} A * g'\left (Z\right )$ 其中 $*$ 为element-wise的乘积。
$d⁡X=W⊺⋅d⁡Z\operatorname {d} X = W ^{\intercal} \cdot \operatorname {d} Z$
$d⁡W=d⁡Z⋅X⊺\operatorname {d} W = \operatorname {d} Z \cdot X ^{\intercal}$
$d⁡b=d⁡Z\operatorname {d} b = \operatorname {d} Z$