一、相同点 softmax求导 sigmoid求导 两者的导数都有λ(1-λ),当预测结果错误且值很小时,容易导致权重更新缓慢,所以一般选择交叉熵作为损失函数,交叉熵的导数是1/λ,可以消除权重更新缓慢的影响 二、不同点 softmax只用于最后结果输出,因为它会增强数据之间的关联性,不适合在隐藏层使用sigmoid可用于任何层,只是用于隐藏层时,仍会有权重更新缓慢的问题,所以隐藏层激活函数多使用relusoftmax用于分类结果互斥的情况,如判断是猫是狗,只有一个可能性;sigmoid用于分类结果独立的情况,如根据图片判断患者得了什么疾病,有多种可能性。