简单阐述一下BP的过程

转载于 2024-08-06 11:45:10 发布 · 259 阅读

CC 4.0 BY-SA版权

原文链接：https://github.com/zonechen1994/CV_Interview

文章标签：

1.基本概念
BP(Back Propogation)算法是一种最有效的学习方法，主要特点是信号前向传递，而误差后向传播，通过不断调节网络权重值，使得网络的最终输出与期望输出尽可能接近，以达到训练的目的。前向过程中通过与正确标签计算损失，反向传递损失，更新参数，优化至最后的参数。
一个两层的神经网络。其中 $x$ 是网络的输入， $y$ 是网络的输出， $w$ 是网络学习到的参数。"
在这里插入图片描述

“在这里， $w$ 的值就是我们需要更新的目标，但是我们只有一些 $x$ 与跟它对应的真实 $y = f (x)$ 的值，所以呢？我们需要使用这两个值来计算 $w$ 的值了，整个问题就转变成了下面的优化问题了，也就是我们需要求函数的最小值。
在这里插入图片描述
在实际中，这类问题有一个经典的方法叫做梯度下降法。意思是我们先使用一个随机生成的 $w$ ，然后使用下面的公式不断更新 $w$ 的值，最终逼近真实效果。

这里 $w$ 是一个随机初始化的权重， $∂E∂w\frac{\partial E}{\partial w}$ 是表示当前误差对权重 $w$ 的梯度。 $η\eta$ 是表示的学习率，通常不会很大，都是0.01以下的值，用来控制更新的步长。

BP基础之链式求导若 $y = g (x)$ ,那么 $z = h (x)$ ,其中。其中 $dydx=g′(x),dzdy=f′(y)\frac{d y}{d x}=g^{\prime}(x), \frac{d z}{d y}=f^{\prime}(y)$ 。

当我们需要求 $z$ 对 $x$ 的导数 $dzdx\frac{d z}{d x}$ 就需要使用链式求导了。根据我们之前学过的知识：
$h′(x)=dzdx=dzdy⋅dydxh^{\prime}(x) =\frac{dz}{dx} =\frac{dz}{dy}· \frac{dy}{dx}$
这里说的都还是以单变量作为例子，实际中，多维变量就是变成了求偏导数了。