机器学习100天——第三天 (多元线性回归)

本文深入探讨了虚拟变量(Dummy Variable)的概念及其在统计模型中的应用,特别关注虚拟变量陷阱这一常见问题。虚拟变量用于量化质性特征,通过取值0或1来表示属性的存在与否。然而,不当引入过多虚拟变量会导致模型中的完全共线性,形成虚拟变量陷阱,阻碍模型的有效估计。文章通过实例说明如何避免陷阱,确保模型的准确性和稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

虚拟变量(Dummy Variable)和虚拟变量陷阱(Dummy Variable Regression)

     虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。

    引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。

例如,反映文程度的虚拟变量可取为:1:本科学历;0:非本科学历
 
一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。
 
虚拟变量陷阱是指一般在引入虚拟变量时要求如果有m个定性变量,在模型中引入m-1个虚拟变量。否则,如果引入m个虚拟变量,就会导致模型解释变量间出现完全共线性的情况。

我们一般称由于引入虚拟变量个数与定性因素个数相同出现的模型无法估计的问题,称为"虚拟变量陷阱"。

由上述定义:在上述测试中对X的第3列数据项-State先后进行了标签编码和独热编码,其中,标签编码将三个变量New York、California、Florida分别编码为2、0、1。紧接着再对X的这列数据进行独热编码,将2、0、1编码为001、100、010。而此时的3个变量New York、California、Florida,就引入了3个虚拟变量,属于虚拟变量陷阱。因此在Avoiding Dummy Variable Trap中,删除了独热编码的第一列,即使用01、00、10分别表示New York、California、Florida,避免了虚拟变量陷阱。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值