Cross-entropy Cost Function for Classification Problem

最新推荐文章于 2022-05-02 23:01:17 发布

weixin_33726318

最新推荐文章于 2022-05-02 23:01:17 发布

阅读量105

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/rhyswang/p/8468511.html

本文探讨了在神经网络的分类问题中，使用二次代价函数存在的问题，尤其是在学习速率方面。介绍了如何利用交叉熵作为代价函数来解决这些问题，使算法能够更高效地学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Machine Learning的Regression Problem中，常用Quadratic Function来做Cost Function，用以表征Hypothesis与Y之间的差距。而通过Gradient Descent来不断调整参数，从而缩小这个Gap从而训练我们的算法。

而在Neural Network的Classification Problem中，如果依然使用Quadratic Function，则会出现学习速率过慢的问题，这时我们就需要选用Cross-entropy来做Cost Function。首先，在NN的Backpropagation过程中，我们可以知道Cost对于最后一层的weight矩阵的梯度为：

其中C对激励输入z^L的梯度记为：

而在使用Quadratic作为Cost的情况下：

可以看出，该梯度是由Hypothesis与Y的差值以及σ'(z)决定。此时存在一个问题：在训练的最初阶段，我们的参数的随机的，这意味着初期Z值有可能很大，也有可能很小，假如y=0，但由于z值很大导致最终的输出a^L=1，此时预测结果与期望值正好相反，但此时σ的梯度却近似于0，导致学习速率很慢。我们对照下面的两张图即可有所体会：