and the model parameters θ were trained to minimize the cost function
Notice that this generalizes the logistic regression cost function, which could also have been written:
导数
对softmax函数进行求导,即求
第 项的输出对第 项输入的偏导。
代入softmax函数表达式,可以得到:
用我们高中就知道的求导规则:对于
它的导数为
所以在我们这个例子中,
上面两个式子只是代表直接进行替换,而非真的等式。
(即 )对 进行求导,要分情况讨论:
- 如果 ,则求导结果为
- 如果 ,则求导结果为
再来看
对 求导,结果为 。 所以,当
当 时:
其中,为了方便,令
对softmax函数的求导,我在两年前微信校招面试基础研究岗位一面的时候,就遇到过,这个属于比较基础的问题。
Loss function求导
对单个样本来说,loss function
上面对 求导结果已经算出:
当
时:当
时: 所以,将求导结果代入上式:
引用:
http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression
https://zhuanlan.zhihu.com/p/27223959