机器学习中的线性回归与多项式回归分析
1. 线性回归模型诊断
1.1 实际与预测值可视化
在对房屋价格进行建模时,我们将房屋价格按升序排列,绘制实际值与预测值的对比图。这样做的目的是为了使图形更加清晰,避免数据过于杂乱。从图中可以看出,模型基本能较好地跟踪实际价格,但仍存在一些异常值或高值,模型无法准确预测这些点。不过,这并不影响模型,因为该模型不受异常值的影响。
1.2 模型诊断的重要性
模型诊断是模型选择过程中的关键步骤,它与模型性能评估有所不同。模型评估主要关注模型在未见过的数据(测试数据)上的表现,而模型诊断则侧重于检查模型在现有数据上的拟合情况。这包括检查参数估计的 p 值显著性、残差的正态性、自相关性、同方差性、有影响的点以及多重共线性等。
1.3 有影响点分析
在线性回归中,极端值可能会对估计过程产生问题。一些高杠杆值会给估计量引入偏差,并在残差中产生异常。因此,识别数据中的有影响点非常重要。如果这些有影响点过于极端,我们可以将其作为异常值从分析中剔除。
1.3.1 Cook’s 距离
Cook’s 距离用于衡量删除某个观测值对回归模型的影响。其计算公式如下:
[D_i = \frac{e_i^2}{p s^2} \frac{h_i}{(1 - h_i)^2}]
其中,(s^2 = \frac{1}{n - p - 1} \mathbf{e}’ \mathbf{e}) 是回归模型的均方误差,(h_i = \mathbf{x}_i^T (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{x}_i),(\mat