首先crossentropy的定义为
softmax的直观定义(摘于李宏毅教授主页http://speech.ee.ntu.edu.tw/~tlkagk/courses.html)
softmax它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类!以手写数字图像识别为例。softmax输出的是一个十维的vector,比如待识别的数字是2,则我们希望的是在索引为2处的值最大,此时y可能是而y_hat为
,虽然Loss是求和的形式,但由于y_hat中只有一个数字为1,其他都为0,所以Loss其实是等于
(r是y_hat中1的索引)
在Backpropagation中我们需要求,其中
为
,分别对10个变量求偏导即可,对
求偏导需要分i=r与i≠r两种情况
1)当i=r时( 注:此时yr的分子分母都含有项,且此时y_hat为1)
2)i≠r时 ( 注:此时yr的只有分母都含有项)