自变量是分类变量的线性拟合+哑变量

本文介绍了如何使用哑变量(dummy variable)来处理分类数据,并探讨了引入哑变量对模型拟合的影响。通过实例说明了如何创建及解释哑变量,并讨论了共线性问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

哑变量 dummy variable(也相当于对数据分类)

何时引入哑变量

顺序变量如(高,中,低)可按比例引入值(如1,3,5)
而分类变量,或连续变量的划分:(如:1-10,11-20,21-30……)则可引入哑变量
引入哑变量后,可以降低De,拟合效果较好引入哑变量后,可以降低D_e,拟合效果较好De,

(男,女)⇒(0,1) (男,女)\Rightarrow (0,1) ()(0,1)
(春,夏,秋,冬)以冬天为参照D1={1春0其他D2={1夏0其他D3={1秋0其他 (春,夏,秋,冬) 以冬天为参照\\D_1= \begin{cases} 1& \text{春}\\ 0& \text{其他} \end{cases} D_2= \begin{cases} 1& \text{夏}\\ 0& \text{其他} \end{cases} D_3= \begin{cases} 1& \text{秋}\\ 0& \text{其他} \end{cases} (,,,)D1={10其他D2={10其他D3={10其他
一般用n−1个变量描述n个属性 一般用n-1个变量描述n个属性n1n
Y=β0+β1x+ε↓Y=β0+β1x+β2D+ε则E(Y∣D=0)=β0+β1xE(Y∣D=1)=β0+β1x+β2 Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D+ε \\ 则E(Y|D=0)=β_0+β_1x \quad E(Y|D=1)=β_0+β_1x+β_2\\ Y=β0+β1x+εY=β0+β1x+β2D+εE(YD=0)=β0+β1xE(YD=1)=β0+β1x+β2

多个

Y=β0+β1x+ε↓Y=β0+β1x+β2D1+β3D2+ε Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D_1+β_3D_2+ε \\ Y=β0+β1x+εY=β0+β1x+β2D1+β3D2+ε

结果描述:原来:在其他情况不变的条件下,x增加1,Y增加β1现在:其他条件不变时,X=1与X全等于零(参照)相比,所引起Y的平均变化多β2结果描述:\\原来:在其他情况不变的条件下,x增加1,Y增加β_1 \\ 现在:其他条件不变时,X=1与X全等于零(参照)相比,\\ 所引起Y的平均变化多β_2x1Yβ1X=1XYβ2

共线性问题

X1与D有相关性吗?

描述
计算
比较出结论

检验
Y=β0+β1x+β2D+β3xD+εY=β0+(β1+β3D)x+β2D+ε Y=β_0+β_1x+β_2D+β_3xD+ε \\ Y=β_0+(β_1+β_3D)x+β_2D+ε Y=β0+β1x+β2D+β3xD+εY=β0+(β1+β3D)x+β2D+ε
计算β3,β3应该为零计算β_3,β_3应该为零β3β3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值