反向传播
当神经网络层数很多,每一层又有很多神经元时,参数就异常的多,我们为了实现梯度下降,就要求L(参数1,参数2...)对所有参数的微分,,假如有一百万个参数,每次梯度下降就要求100万次微分,这个计算量可想而知
反向传播就是为了解决在求损失函数对参数的微分计算量太大的问题,基于链式法则,我们先回顾一下链式法则
下面就是反向传播的计算过程
上面的dC/dz,看过Ng的课应该知道,这就是Ng定义的δ
(#^.^#)
当神经网络层数很多,每一层又有很多神经元时,参数就异常的多,我们为了实现梯度下降,就要求L(参数1,参数2...)对所有参数的微分,,假如有一百万个参数,每次梯度下降就要求100万次微分,这个计算量可想而知
反向传播就是为了解决在求损失函数对参数的微分计算量太大的问题,基于链式法则,我们先回顾一下链式法则
下面就是反向传播的计算过程
上面的dC/dz,看过Ng的课应该知道,这就是Ng定义的δ
(#^.^#)