logistic模型
解决二分类问题的回归方法,因变量是 0-1
随机变量。希望连接函数取值为 [0,1]
,其输出代表因变量取 1
的概率,当特征的线性组合经过连接函数的作用后大于 0.5
则看做 1
,小于 0.5
看做 0
。 logistic
函数(也称 sigmoid
函数)满足这一要求:
我们令回归方程为
等价变形可得
这里因变量应当看做 0-1
随机变量,期望表示取 1
的概率。
似然函数
根据上式可得
由
可得因变量的对数似然函数
注意这就是交叉熵损失函数。对上式进行整理可得
取负号后用梯度下降法求最小值。
多分类方法
假设有 M
个类别则有两种方法进行回归。
1
. 训练 M
个 logistic
回归模型,每个模型预测因变量取第 i
类的概率,选取预测值最大的那一类作为类别预测值。即多分类中的一对其余方法。
2
. 自变量方程部分仍然是上面的线性组合形式,但是因变量取某值的概率不再是用 logistic
函数对自变量线性组合进行变换,而是将线性组合部分用 softmax
函数来变换,然后带入似然函数中求解。
系数和预测值的评价指标
优势比(OR
值):优势比 exp(beta_i)
表示自变量 x_i
增加一个单位会令 p/(1-p)
增加多少倍。OR
值取值范围是正实数,大于 1
表示正作用,小于 1
表示负作用,等于 1
没有影响。
准确率:预测正确的样本量占总样本量的比例。准确率是对模型预测能力的度量,但是实际问题中我们可能更关注正例的预测准确率,而样本不均衡时准确率可能不能反映出正例预测效果,如样本中正例占比 5%
,反例占比 95%
,假如反例全部预测正确而正例全部预测错误,那准确率仍然有 95%
。
精准率:预测为正例的样本中预测正确的比例。
灵敏度:正例被正确预测的比例,又称召回率。注意精准率和召回率一个增大另一个就会减小。
特异度:反例被正确预测的比例。
ROC
曲线:横轴是 1 -
特异度,纵轴是灵敏度。我们希望灵敏度和特异度都越大越好,因此ROC
曲线越靠近左上角越好。反映模型区分正负样本的能力。
AUC
值:ROC
曲线下方的面积,越大越好。由于乱猜的情况下灵敏度和特异度都约为 50%
,因此 ROC
曲线在直线 y = x
附近,即AUC
值最小为 0.5
,其横轴纵轴范围都是 [0,1]
,因此最大为 1
。