哑变量 dummy variable(也相当于对数据分类)
何时引入哑变量
顺序变量如(高,中,低)可按比例引入值(如1,3,5)
而分类变量,或连续变量的划分:(如:1-10,11-20,21-30……)则可引入哑变量
引入哑变量后,可以降低De,拟合效果较好引入哑变量后,可以降低D_e,拟合效果较好引入哑变量后,可以降低De,拟合效果较好
(男,女)⇒(0,1) (男,女)\Rightarrow (0,1) (男,女)⇒(0,1)
(春,夏,秋,冬)以冬天为参照D1={1春0其他D2={1夏0其他D3={1秋0其他 (春,夏,秋,冬) 以冬天为参照\\D_1=
\begin{cases}
1& \text{春}\\
0& \text{其他}
\end{cases} D_2=
\begin{cases}
1& \text{夏}\\
0& \text{其他}
\end{cases} D_3=
\begin{cases}
1& \text{秋}\\
0& \text{其他}
\end{cases} (春,夏,秋,冬)以冬天为参照D1={10春其他D2={10夏其他D3={10秋其他
一般用n−1个变量描述n个属性 一般用n-1个变量描述n个属性一般用n−1个变量描述n个属性
Y=β0+β1x+ε↓Y=β0+β1x+β2D+ε则E(Y∣D=0)=β0+β1xE(Y∣D=1)=β0+β1x+β2 Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D+ε \\
则E(Y|D=0)=β_0+β_1x \quad E(Y|D=1)=β_0+β_1x+β_2\\ Y=β0+β1x+ε↓Y=β0+β1x+β2D+ε则E(Y∣D=0)=β0+β1xE(Y∣D=1)=β0+β1x+β2
多个
Y=β0+β1x+ε↓Y=β0+β1x+β2D1+β3D2+ε Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D_1+β_3D_2+ε \\ Y=β0+β1x+ε↓Y=β0+β1x+β2D1+β3D2+ε
结果描述:原来:在其他情况不变的条件下,x增加1,Y增加β1现在:其他条件不变时,X=1与X全等于零(参照)相比,所引起Y的平均变化多β2结果描述:\\原来:在其他情况不变的条件下,x增加1,Y增加β_1 \\ 现在:其他条件不变时,X=1与X全等于零(参照)相比,\\ 所引起Y的平均变化多β_2结果描述:原来:在其他情况不变的条件下,x增加1,Y增加β1现在:其他条件不变时,X=1与X全等于零(参照)相比,所引起Y的平均变化多β2