反向传播算法-机器学习（machine learning）笔记（Andrew Ng）

阶艺勿听

于 2018-08-09 17:01:06 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sinat_25721683/article/details/79240190

版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

反向传播算法（back propagation algorithm）
- 基本概念

反向传播算法（back propagation algorithm）

基本概念

BP算法(即反向传播算法)是在有导师指导下，适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上。
旨在得到最优的全局参数矩阵，进而将多层神经网络应用到分类或者回归任务中去。

δ (l) j = " e r r o r " o f n o d e j i n l a y e r l .

$\delta^{(l)}_j="error"\,of\,node\,j\,in\,layer\,l.$

δ δ $\delta$ 代表的是假设

h(x) h ( x ) $h(x)$ 的输出和训练集

y y $y$ 值之间的差，即

δ_{j}^{(l)} = a_{j}^{(l)} - y_{j}

$\delta^{(l)}_j=a^{(l)}_j-y_j$
如果把

δ,a,y δ , a , y $\delta,a,y$ 都看做向量，则可以用向量化表达式来表示：

δ (l) = a l - y

$\delta^{(l)}=a^l-y$
接下来计算前面几层（隐含层直到输出层）的误差：

δ (l - 1) = (Θ (l - 1)) T δ (l) . * g' (z (l - 1))

$\delta^{(l-1)}=(\Theta^{(l-1)})^T\delta^{(l)}.*g^\prime(z^{(l-1)})$

. . .

$...$

δ (2) = (Θ (2)) T δ (3) . * g' (z (2))

$\delta^{(2)}=(\Theta^{(2)})^T\delta^{(3)}.*g^\prime(z^{(2)})$

$.*$ 是两个向量间元素对应相乘，没有 $\delta^{(1)}$ ，因为那是我们在训练集所观察到的，不会有误差。
在算法的开始，我们令

Δ (l) i j = 0

$\Delta^{(l)}_{ij}=0$
然后计算出所有的

δ δ $\delta$ 之后，对其在

Δ Δ $\Delta$ 上进行累加：

Δ (l) i j : = Δ (l) i j + a (l) j δ (l + 1) i

$\Delta^{(l)}_{ij}:=\Delta^{(l)}_{ij}+a^{(l)}_j\delta^{(l+1)}_i$
将其写成向量形式，

ij i j $ij$ 对应矩阵下标，可以得到：

Δ (l) : = Δ (l) + δ (l + 1) (a (l)) T

$\Delta^{(l)}:=\Delta^{(l)}+\delta^{(l+1)}(a^{(l)})^T$
接下来，我们分情况计算：

D (l) i j : = 1 m Δ (l) i j + λ Θ (l) i j, i f j \neq 0

$D^{(l)}_{ij}:=\frac{1}{m}\Delta^{(l)}_{ij}+\lambda\Theta^{(l)}_{ij},if\,j\neq0$

D (l) i j : = 1 m Δ (l) i j, i f j = 0

$D^{(l)}_{ij}:=\frac{1}{m}\Delta^{(l)}_{ij},if\,j=0$
通过证明可以发现：

\partial \partial Θ ( l ) i j J (Θ) = D (l) i j

$\frac{\partial}{\partial \Theta^{(l)}_{ij}}J(\Theta)=D^{(l)}_{ij}$
未完…

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。