回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,回归系数

文章讨论了多重共线性在统计学和机器学习中的问题,特别是在线性回归模型中,当解释变量之间高度相关时,可能导致模型估计失真、参数不准确及自变量显著性丧失。危害包括模型稳定性降低和难以评估单个变量影响。判断标准包括皮尔逊相关系数、VIF值等。解决方法包括删除相关变量、正则化、特征组合和降维等。

1. 多重共线性       

        多重共线性是指线性回归模型中的解释变量之间由于存在精确或高度相关关系

        例如:某个回归模型包含2个变量,年龄工作经验年数,常识可知年龄越大,工作经验年数越大,两个变量可能存在高度关联,因此模型中可能存在多重共线性

2. 多重共线性的危害

        a. 模型估计失真难以估计准确 稳定性降低,意味着回归方程的标准误差可能会增大;

        b. 模型参数估计不准确,方差大,这也是模型估计不准的原进一步原因,至于为什么看3

        c. 无法判断单独变量的影响,计算特征贡献度;

        d. 因此自变量显著性可能会失去意义,本应该显著的自变量不显著,本不显著的自变量却是显著

3. 共线性的存在导致模型估计不准的原因

        最小化损失函数的目的是找到一组最优回归系数,宏观定义上可以理解为模型参数。多重共线性的存在会导致模型参数估计不准确,进而导致模型估计失真估计不准的问题

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值