简单来说,
softmax
适用于预测 结果互斥 的情况,也就是说label是one-hot的情况。
例如MNIST数据集,每张图片的结果只能是0-9中的一个数字,采用softmax之后可以保证概率相加为1,其中label对应位置的概率为预测结果是该数字的概率。
sigmoid
适应于预测 结果不互斥 的情况,也就是说label可以是[1, 1, 0, 0, 1]。
例如有一堆包含动物的图片,其中每张图片可能包含多个动物。
参考:https://zhuanlan.zhihu.com/p/33560183