共线性与过拟合的之间的区别分析

本文探讨了机器学习中常见的两个问题:过拟合和共线性。过拟合指的是模型过于复杂以至于将训练数据中的噪声也作为特征学习的情况,这会导致模型在新数据上的泛化能力下降。共线性则是指输入特征之间存在高度相关性,这会影响模型参数的估计,特别是在线性回归中可能导致系数矩阵不可逆。文章还讨论了这些问题在不同算法中的表现,如线性回归和决策树。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

“过拟合”是把噪声的信息也学习进来了,导致泛化能力差,在新样本上表现差;

“共线性”是自变量相关性太强,导致参数估计不可信,如果完全共线性则导致回归系数估计时系数矩阵的不可逆,使用迭代求解时不收敛,无法计算系数。

例如线性回归时系数求解使用最小二乘法,系数估计beta=(XX’)^(-1) XY,如果两个变量相关,则XX’不可逆

对于决策树算法,共线性与否其实没关系,极端例子,两个变量完全一样时,用哪个变量拆分其实都可以,结果都一样。

根本原因是决策树是启发式算法,而不是严格意义的统计模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值