为什么决策树模型不考虑变量之间的共线性?

本文探讨了在使用梯度提升树(GBT)进行预测分析时,自变量间存在的共线性是否构成问题。文中提到,在统计推断中,自变量间的共线性会使得难以清晰地解释各变量的作用;但在预测场景下,由于GBT本身的特点,即使面对共线性数据也能有效工作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在做线性回归时,假设之一是要求自变量之间没有强共线性,但是用决策树模型做预测时,却没有这个要求。于是乎,查询了一下,在Quora上找到了相关答案。Is multicollinearity a problem with gradient boosted trees?

总结一下,主要有下面几个原因

1.在统计分析中,作推断(inference)时,如果自变量存在共线性,将无法区分它们对因变量的影响,因此无法对结果进行清除的解释。

2.但是作预测(prediction)时,我们并不关系如何解释自变量对因变量的影响。GBT 也更像一个black-box,很适合做预测分析。

3.做预测分析时,即时我们用OLS方法,如果特征存在强相关性,会导致特征矩阵不可逆,但此时,我们仍然可以利用psedoinverse matrix进行计算。

4. 做预测时,往往用贪婪算法进行变量选择,只有新变量对结果影响比较大时,才会被加入到模型中,因此,在step-wise variable selection的过程中,共线性的变量只有一个会被选入到模型中。在决策树模型中,每一个树的构建都是贪婪的,因此,冗余的特征并不会被加入模型中。


(如果理解有问题,欢迎批评指正)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值