首先softmax的公式为
其中ezj是当前神经元输出的zj进行取指得到的值,分母为:当前层所有神经元输出z的取指和,换句话说就是:把一堆实数的值映射到0-1区间,并且使他们的和为1。
softmax经常在神经网络中代替sigmoid用于输出层上,通过结果得到的0-1区间的值代表概率来判断谁更可能是符合的输出
softmax直观理解:max是a>b一定取a,没有比别的选择。而在神经网络中有时候我们并不想这样,因为这样会造成分小的那个值的饥饿,我们希望分小的那个值在小概率的情况下仍然会被取到,这个时候我们就用到了softmax。在softmax中值大的会大概率被取到,也经常被取到,取到的次数便多,而值小的也会大概率被取到。而这个概率与值本身和该层各个值有关。
而使用指数的原因:,第一个原因是要模拟max的行为,所以要让大的更大。第二个原因是需要一个可导的函数。让大的更大的原因是让错的更错,这样学习效率更高
(图片来自一天搞懂深度学习)
上图是一个使用softmax的用法。
而在计算Loss上我们的Loss函数为交叉熵损失函数,及loss里面的值越大,概率越大,loss越小,这也符合要求。
最后结果的形式非常的简单,只要将算出来的概率的向量对应的真正结果的那一维减1,就可以了。之后就可以进行反向传播了。
本文参考https://www.zhihu.com/question/23765351