机器学习中的逻辑回归:理论与实践
1. 多项式模型的注意事项
在模型构建中,若使用多项式模型,当模型的R - Square有所改善且二次项显著时,二次多项式的拟合效果通常优于线性情况。不过,将此思路扩展到更高次多项式时需谨慎,因为这可能会导致过拟合,而且许多实际过程并不适合用高次多项式来表示。如果计划使用四次以上的多项式,在解释模型时要格外小心。
2. 逻辑回归概述
在传统的线性回归中,因变量是具有实数值的连续变量,且要求误差服从正态分布,回归方程才有效。但当因变量只能取两个值(如0和1),即服从二项分布时,误差项就不再服从正态分布。此时,就需要采用不同的框架来处理这类因变量不服从高斯分布,而是来自指数分布族的情况。
逻辑回归用于建模预测变量与分类响应/因变量之间的关系。例如在信用风险问题中,可使用预测变量来建模违约或不违约的二项结果。
3. 逻辑回归的类型
逻辑回归根据分类(响应)变量的类型可分为以下三种:
- 二项逻辑回归 :响应变量只有两个可能的值(0/1)。通常先估计其为1的概率,再根据某个阈值来预测响应变量的状态。二项分布的概率质量函数为:
[f(k; n, p) = Pr(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}]
其中,$k$ 是成功的次数,$n$ 是试验的总次数,$p$ 是每次试验成功的概率。
- 多项逻辑回归 :分类响应变量有三个或更多的值/水平。通常会计算每个水平的概率,然后根据某种分类规则(如最大概率)来确定响应变量的状态。多项分布的概