优点
- 实现简单;
- 分类时计算量非常小,速度很快,存储资源低;
缺点
- 容易欠拟合,一般准确度不太高
- 只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分
损失函数
逻辑回归的公式为:
h(x)=11+e−(wTx+b) h(x) = \frac{1} {1 + e^{-(w^Tx+b)}} h(x)=1+e−(wTx+b)1
假设有N个样本,样本的标签只有0和1两类,可以用极大似然估计法估计模型参数,从而得到逻辑回归模型
设yi=1的概率为pi,yi=0的概率为1 - pi,那么观测的概率为:
p(yi)=piyi∗(1−pi)1−yi p(y_i) = p_i^{y_i} * (1-p_i)^{1-y_i} p(yi)=piyi∗(1−pi)1−yi
可以看到这个公式很巧妙的将0和1两种情况都包括进去,数学真是美妙的东西
概率由逻辑回归的公式求解,那么带进去得到极大似然函数:
∏iNh(xi)yi∗(1−h(xi))1−yi \prod_i^N h(x_i)^{y_i} * (1-h(x_i))^{1-y_i} i∏Nh(xi)y