为什么选择交叉熵(Why Cross-Entropy)
为了解决学习速度下降的问题,我们希望
∂C∂wj=xj(a−y)
∂C∂b=(a−y)
如上文所述, 当代码函数为
C
时:
因为 δ 函数的性质:
δ′(z)=(1−δ(z))δ(z)=a(1−a)
于是:
∂C∂b=∂C∂aa(1−a)
如果要符合期望, 则下式必须成立:
∂C∂a=a−ya(1−a)
则反推可以得到
C=−[ylna+(1−y)ln(1−a)]+constant
这是一个样本的代价函数, 多个样本的话, 自然
C=−1n∑x[ylna+(1−y)ln(1−a)]+constant
本文探讨了交叉熵作为损失函数在神经网络中的使用,解释了为何它能有效提高学习速度并简化梯度计算过程。通过数学推导,文章详细展示了如何从期望的偏导数形式出发,反推出交叉熵损失函数。
3913

被折叠的 条评论
为什么被折叠?



