优点:
1.数据压缩能力,将数据规约在[0,1]之间
2.导数形式优秀,方便计算
缺点:
1.容易梯度消失,x稍大的情况下就趋近一条水平线
2.非0中心化,在神经网络算法等情况下,造成反向传播时权重的全正全负的情况。
为什么要用?
答案1:logistic是基于Bernoulli分布的假设,也就是y|X~Bernoulli分布,而Bernoulli分布的指数族的形式就是1/(1+exp(-z))
答案2:
对于logistic多分类而言,
x1、x2、…、xn,属于k类的概率正比于:ewk1x1+wk2x2+...+wk1xne^{w_{k1}x_1+w_{k2}x_2+...+w_{k1}x_n}ewk1x1+wk2x2+...+wk1xn
如二分类:
x1、x2、…、xn,属于1的概率:
ew11x1+wk12x2+...+w1nxnew11x1+wk12x2+...+w1nxn+ew01x1+wk02x2+...+w0nxn\frac{e^{w_{11}x_1+w_{k12}x_2+...+w_{1n}x_n}}{e^{w_{11}x_1+w_{k12}x_2+...+w_{1n}x_n}+e^{w_{01}x_1+w_{k02}x_2+...+w_{0n}x_n}}ew11x1+wk12x2+...+w1nxn+ew01x1+wk02x2+...+w0nxnew11x1+wk12x2+...+w1nxn