[学习笔记]神经网络

为什么要有激活函数?

因为假设没有激活函数,神经网络会退化成单层的矩阵运算,激活函数确保它有复杂的表达能力.

为什么要增加层数?

中间层神经网络会自主学习到重要的信息,表达能力增强.

最小化误差:

min_\Theta J(\Theta) = min_\Theta \frac{\sum^N_{i=1} l(y_i - F_\Theta(x_i))}{N}

梯度下降(a 学习率):

\Theta^{new} = \Theta^{old} - a\nabla_\Theta J(\Theta)

梯度下降法会陷入局部最优解,但由于神经网络参数量较大,故不容易出现这种情况

学习率较小会走得慢,学习率太大会震荡不达到最优解.

反向传播

\frac{\partial L }{\partial W^{(2)}} = prod(\frac{\partial L}{\partial O},\frac{\partial O}{\partial W^{(2)}}) = \frac{\partial L}{\partial O}*h^T

\frac{\partial L }{\partial h} = prod(\frac{\partial L}{\partial O},\frac{\partial O}{\partial h}) = W^{(2)T}*\frac{\partial L}{\partial O}

\frac{\partial L }{\partial Z} = prod(\frac{\partial L}{\partial O},\frac{\partial O}{\partial h},\frac{\partial h}{\partial Z}) = \frac{\partial L}{\partial h}\bigodot \phi '(Z)

\frac{\partial L }{\partial W^{(1)}} = prod(\frac{\partial L}{\partial O},\frac{\partial O}{\partial h},\frac{\partial h}{\partial Z},\frac{\partial Z}{\partial W^{(1)}}) = \frac{\partial L}{\partial Z}*X^T

每一个偏导数都用到了上一级的偏导数

有几条通路就有几项进行相加

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值