1.对于分类问题 使用 MSE + sigmoid 会发生梯度弥散现象(即在接近负无穷和正无穷时梯度接近于0)
2.使用Cross Entropy 的梯度信息大于MSE 即收敛速度快
3. 但是有时当Cross Entropy 学习效果不好时 可以尝试MSE
1.对于分类问题 使用 MSE + sigmoid 会发生梯度弥散现象(即在接近负无穷和正无穷时梯度接近于0)
2.使用Cross Entropy 的梯度信息大于MSE 即收敛速度快
3. 但是有时当Cross Entropy 学习效果不好时 可以尝试MSE