一。逻辑斯蒂回归模型
1.模型
因变量是概率
比率odds
自变量的线性组合就是log-odds
2.系数的估计与解读
(1)系数估计用极大似然估计法
(2)系数为正,说明相应的自变量的增加会导致y=1的可能性增加。
(3)系数为b,自变量增加一个单位,比率的对数增加b个单位。比率增加exp(b)个单位。
二。阈值的选取
有很多方法,最常见的是样本比例(样本中1所占的比例)
三。模型的评价
.混淆矩阵
1.错分率
2.TPR(TRUE POSITIVE RATE)
3.FPR(FLASH POSITIVE RATE)
4.ROC
5.AUC
决策树的优点:
(1)可视化
(2)易于解释
(3)处理离散变量更直观,和回归相比不需要构建虚拟变量
缺点:
(1)比逻辑回归复杂
(2)结果不稳定,预测精度不高