自变量是分类变量的线性拟合+哑变量

最新推荐文章于 2024-04-25 16:42:44 发布

原创最新推荐文章于 2024-04-25 16:42:44 发布 · 3.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

数据分析专栏收录该内容

17 篇文章

订阅专栏

本文介绍了如何使用哑变量(dummy variable)来处理分类数据，并探讨了引入哑变量对模型拟合的影响。通过实例说明了如何创建及解释哑变量，并讨论了共线性问题。

哑变量 dummy variable(也相当于对数据分类)

何时引入哑变量

顺序变量如(高,中,低)可按比例引入值(如1，3，5)
而分类变量，或连续变量的划分:(如：1-10，11-20，21-30……)则可引入哑变量
$引入哑变量后，可以降低D_e,拟合效果较好$

$(男，女)\Rightarrow (0,1)$
$以冬天为参照\\D_1= \begin{cases} 1& \text{春}\\ 0& \text{其他} \end{cases} D_2= \begin{cases} 1& \text{夏}\\ 0& \text{其他} \end{cases} D_3= \begin{cases} 1& \text{秋}\\ 0& \text{其他} \end{cases}$
$一般用 n - 1 个变量描述 n 个属性$
$Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D+ε \\ 则E(Y|D=0)=β_0+β_1x \quad E(Y|D=1)=β_0+β_1x+β_2\\$

多个

$Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D_1+β_3D_2+ε \\$

$结果描述：\\原来：在其他情况不变的条件下，x增加1，Y增加β_1 \\ 现在：其他条件不变时，X=1与X全等于零（参照）相比，\\ 所引起Y的平均变化多β_2$

共线性问题

X1与D有相关性吗？

检验
$Y=β_0+β_1x+β_2D+β_3xD+ε \\ Y=β_0+(β_1+β_3D)x+β_2D+ε$
$计算β_3，β_3应该为零$

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。