21、机器学习中的线性回归与多项式回归分析

机器学习中的线性回归与多项式回归分析

1. 线性回归模型诊断

1.1 实际与预测值可视化

在对房屋价格进行建模时,我们将房屋价格按升序排列,绘制实际值与预测值的对比图。这样做的目的是为了使图形更加清晰,避免数据过于杂乱。从图中可以看出,模型基本能较好地跟踪实际价格,但仍存在一些异常值或高值,模型无法准确预测这些点。不过,这并不影响模型,因为该模型不受异常值的影响。

1.2 模型诊断的重要性

模型诊断是模型选择过程中的关键步骤,它与模型性能评估有所不同。模型评估主要关注模型在未见过的数据(测试数据)上的表现,而模型诊断则侧重于检查模型在现有数据上的拟合情况。这包括检查参数估计的 p 值显著性、残差的正态性、自相关性、同方差性、有影响的点以及多重共线性等。

1.3 有影响点分析

在线性回归中,极端值可能会对估计过程产生问题。一些高杠杆值会给估计量引入偏差,并在残差中产生异常。因此,识别数据中的有影响点非常重要。如果这些有影响点过于极端,我们可以将其作为异常值从分析中剔除。

1.3.1 Cook’s 距离

Cook’s 距离用于衡量删除某个观测值对回归模型的影响。其计算公式如下:
[D_i = \frac{e_i^2}{p s^2} \frac{h_i}{(1 - h_i)^2}]
其中,(s^2 = \frac{1}{n - p - 1} \mathbf{e}’ \mathbf{e}) 是回归模型的均方误差,(h_i = \mathbf{x}_i^T (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{x}_i),(\mat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值