softmax与svm很类似,经常用来做对比,svm的loss function对wx的输出s使用了hinge function,即max(0,-),而softmax则是通过softmax function对输出s进行了概率解释,再通过cross entropy计算loss function。
将score映射到概率的softmax function:,其中,
,j指代 i-th class。
对于某一个样本如 的lost function为
.
(注:
1、以下所有的公式为了便于表达,设定只有一个样品,即L_i全部写做 L
2、公式中没有进行偏移,实际算法为了避免指