R中因子水平的自动组合

最新推荐文章于 2025-07-08 20:31:55 发布

原创

最新推荐文章于 2025-07-08 20:31:55 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

每次我们在应用计量经济学课程中面对实际应用时，我们都必须处理分类变量。同样的问题也发生在学生身上：我们怎样才能自动地结合因素水平呢？有简单的R函数吗？

在过去的几年里，我确实上传了一些博客文章。但到目前为止没有什么令人满意的。让我写下几行关于可以做什么的话。如果有人想写一个很好的R函数，那就太棒了。为了说明这一想法，请考虑以下(模拟数据集)：

n=200

set.seed(1)

x1=runif(n)

x2=runif(n)

y=1+2*x1-x2+rnorm(n,0,.2)

LB=sample(LETTERS[1:10])

b=data.frame(y=y,x1=x1,

             x2=cut(x2,breaks=

             c(-1,.05,.1,.2,.35,.4,.55,.65,.8,.9,2),

             labels=LB))

str(b)

'data.frame':200 obs. of  3 variables:

 $ y : num  1.345 1.863 1.946 2.481 0.765 ...

 $ x1: num  0.266 0.372 0.573 0.908 0.202 ...

 $ x2: Factor w/ 10 levels "I","A","H","F",..: 4 4 6 4 3 6 7 3 4 8 ...

table(b$x2)[LETTERS[1:10]]

 A  B  C  D  E  F  G  H  I  J

11 12 23 34 23 36 12 32  3 14

有一个(连续)因变量y，一个连续协变量x_1和一个范畴变量x_2，具有十个水平。我们可以使用以下方法绘制数据：

plot(b$x1,y,col="white",xlim=c(0,1.1))

text(b$x1,y,as.character(b$x2),cex=.5)

线性回归的输出产生以下预测：

for(i in 1:10){

p=function(x) predict(lm(y~x1+x2,data=b),newdata=data.frame(x1=x,x2=LETTERS[i]))

u=seq(-1,1.065,by=.01)

v=Vectorize(p)(u)

lines(u,v)}

x_1的斜率是相同的，我们只需为每个级别添加一个不同的常数。正如我们所看到的，一些级别非常接近，因此将它们合并成一个类别似乎是合理的。以下是线性回归的输出：

summary(lm(y~x1+x2,data=b))

Coefficients:

             Estimate Std. Error t value Pr(&gt;|t|)

(Intercept)  0.843802   0.119655   7.052 3.23e-11 ***

x1           1.992878   0.053838  37.016  &lt; 2e-16 ***

x2A          0.055500   0.131173   0.423   0.6727

x2H          0.009293   0.121626   0.076   0.9392

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。