多元预测变量在回归分析中的应用与挑战
1. 教育水平与点击率的关系分析
分析教育水平与点击率(CTR)的关系时,我们先考虑大学毕业生比例的标准差。通过代码“> sd( ctr $College Grad)”得到标准差约为 0.04749804,这意味着州与州之间的典型差异约为 0.05。将其与 -0.01373 相乘,得到州与州之间点击率的差异约为 0.0005,此差异在实际中并无太大意义。由此可见,教育水平与点击率之间并无实质关联。尽管最初的博客文章提醒“相关并不意味着因果”,但即便存在因果关系,其影响也十分微小。
2. 多元预测变量的回归分析
2.1 多预测变量线性模型
2.1.1 系数估计
以棒球运动员的体重预测为例,我们使用线性模型“mean weight = c + d × height + e × age”。可以使用 R 语言中的 lm() 函数来估计系数 c、d 和 e。以下是几种不同的代码写法:
# 完整写法
> lm(mlb$Weight ∼mlb$Height + mlb$Age)
# 简洁写法
> lm( Weight ∼Height + Age , data=mlb)
# 更简洁写法
> lm( Weight ∼. , data=mlb [ , 4 : 6 ] )
运行结果如下:
| 系数 | 值 |
| — | — |
| (Intercept) | -187.6382 |
| mlb$Height | 4.9236 |
超级会员免费看
订阅专栏 解锁全文
1566

被折叠的 条评论
为什么被折叠?



