如上文所述, 如果我们使用均方误差来考量学习误差
C=12n∑x||y(x)−aL(x)||2
则有
∂C∂w=(a−y)σ′(z)x
∂C∂b=(a−y)σ′(z)
Sigmoid 函数的曲线大致如下图:
当神经元的输出接近 0
本文探讨了在神经网络中为何交叉熵可以作为有效的代价函数,分析了当预测值a接近目标值y时,交叉熵接近于0的特性,说明其衡量学习误差的优势。同时推荐了相关学习资源。
如上文所述, 如果我们使用均方误差来考量学习误差

被折叠的 条评论
为什么被折叠?