机器学习反向传播算法的数学推导

最新推荐文章于 2025-04-12 11:57:43 发布

Yolo_1996

最新推荐文章于 2025-04-12 11:57:43 发布

阅读量2k

点赞数

分类专栏：机器学习文章标签：机器学习反向传播算法

本文链接：https://blog.youkuaiyun.com/dagongsmallguy/article/details/84930204

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了反向传播算法(BP算法)，一种在神经网络中极为有效的训练方法。通过对误差的反向传播，算法能够动态调整网络连接权重，实现有监督学习。文中详细推导了BP算法的数学原理，包括误差的梯度计算和参数更新过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

周志华的西瓜书机器学习被誉为是机器学习的入门宝典，但是这本书对于深度学习的知识介绍非常少，仅仅只是在第五章《神经网络》中对其进行简单的概括。
这一章对于深度学习的介绍非常浅显，没有很深入的对其中的知识进行挖掘，也没有很复杂的数学推导。
博主在这里对反向传播算法进行数学推导，这里我使用的方法和周老师有些不同，或许更方便一些。

一、反向传播算法概述

误差反向传播算法又称为BP算法，是由Werbos等人在1974年提出来的，我们熟知的Hinton也对该算法做出非常巨大的贡献。这是一种在神经网络中最为有效的训练算法，直到现在还在深度学习中发挥着极其重要的作用。

它是利用输出后的误差来估计输出层前一层的误差，再用这个误差估计更前一层的误差，如此一层一层地反传下去，从而获得所有其它各层的误差估计。这是一种属于有监督学习的方式，可以对网络中的连接权重做动态调整。

反向传播算法和正向传播算法相对应，一起构成了神经网络的整个过程：
在这里插入图片描述

二、数学推导

在这里，为方便对模型的理解和数学推导，我们没有采用西瓜书中的模型表示方式，而是用下图来对其进行简化：
在这里插入图片描述

与输入层相关的变量和参数：下标 $i$
与隐含层相关的变量和参数：下标 $h$
与输出层相关的变量和参数：下标 $j$
激励函数的输入： $a$
激励函数的输出： $z$
节点误差： $\delta$

则输入隐藏层和输出层的量分别为：
$a_{h}=\sum_{i=1}^{d}w_{ih}x_{i}+\Theta _{h}$ $a_{j}=\sum_{i=1}^{d}w_{hj}x_{i}+\Theta _{h}$
隐含层和输出层的的输出分别是：
$z_{h}=f\left ( a_{h} \right )$ $z_{j}=f\left ( a_{j} \right )$

函数的误差损失为： $E_{k}=\frac{1}{2}\sum_{j=l}\left ( t_{j}-z_{j} \right )^{2}$
BP算法是基于梯度下降的策略，以目标的负梯度方向对参数进行调整，所以我们用链式法则求出误差的梯度为：
$\frac{ \partial E}{\partial w_{hj}}=\frac{\partial E}{\partial z_{j}}\frac{\partial z_{j}}{\partial a_{j}}\frac{\partial a_{j}}{\partial w_{hj}}$

由前文我们得到的关系有： $\frac{\partial a_{j}}{\partial w_{hj}}=z_{h}$ $\frac{\partial E}{\partial z_{j}}\frac{\partial z_{j}}{\partial a_{j}}=\frac{\partial E}{\partial a_{j}}=-\left ( t_{j}-z_{j} \right ){f}'\left ( a_{j} \right )$
所以，综上所得，我们有：
$g(h)=\frac{ \partial E}{\partial w_{hj}}=\frac{\partial E}{\partial z_{j}}\frac{\partial z_{j}}{\partial a_{j}}\frac{\partial a_{j}}{\partial w_{hj}}==-\left ( t_{j}-z_{j} \right ){f}'\left ( a_{j} \right )z_{h}$

对于误差 $E_{k}$ ，当我们给定学习率为 $\eta$ 时有：
$\Delta w_{hj}=-\eta \frac{\partial E_{k}}{\partial w_{hj}}$
将 $g (h)$ 和 $b (h)$ 带入后有： $\Delta w_{hj}=\eta g(h) b(h)$