刚开始学习的时候一般使用的损失函数是:
在过程当中使用梯度下降法的时候权重的更新
这时候
可以看的出来对sigmoid函数求导时当数值达到无限大无限小的时候对sigmoid函数求导是时候是很平滑的。所以更新权值的时候在这2种情况下会更新的很慢。
而使用cross-entrop函数
这个时候学习的速率取决于,这样就可以根据误差大学习的速率就大,误差小学习的速率就变小
本文对比了使用sigmoid函数和cross-entropy损失函数时梯度下降法中权重更新的速度差异。指出sigmoid函数在极端值时更新缓慢,而cross-entropy则能依据误差大小自动调整学习率。
刚开始学习的时候一般使用的损失函数是:
在过程当中使用梯度下降法的时候权重的更新
这时候
可以看的出来对sigmoid函数求导时当数值达到无限大无限小的时候对sigmoid函数求导是时候是很平滑的。所以更新权值的时候在这2种情况下会更新的很慢。
而使用cross-entrop函数
这个时候学习的速率取决于,这样就可以根据误差大学习的速率就大,误差小学习的速率就变小
721
3901

被折叠的 条评论
为什么被折叠?