为什么要用softmax?
交叉熵代价函数和softmax激活函数的配合使用使得权值的梯度十分的简洁
交叉熵代价函数
E = − Σ y i l o g y ^ i E = -\Sigma y_ilog\hat y_i E=−Σyilogy^i
softmax激活函数
y ^ = f ( Z ) = e Z t ∑ i n e Z i \hat y = f(Z) = \dfrac{e^{Z_t}}{\sum_{i}^{n} e^{Z_i}} y^=f(Z)=∑ineZieZt
我们通过梯度下降法来求出权值更新的方向,当交叉熵和softmax配合使用时,梯度十分简洁。
d E d w i = d E d Z i ⋅ d Z i d w i = d E d Z i ⋅ X \dfrac{dE}{dw_i} = \dfrac{dE}{dZ_i}·\dfrac{dZ_i}{dw_i} = \dfrac{dE}{dZ_i}·X dwidE=