4、多元预测变量在回归分析中的应用与挑战

多元预测变量在回归分析中的应用与挑战

1. 教育水平与点击率的关系分析

分析教育水平与点击率(CTR)的关系时,我们先考虑大学毕业生比例的标准差。通过代码“> sd( ctr $College Grad)”得到标准差约为 0.04749804,这意味着州与州之间的典型差异约为 0.05。将其与 -0.01373 相乘,得到州与州之间点击率的差异约为 0.0005,此差异在实际中并无太大意义。由此可见,教育水平与点击率之间并无实质关联。尽管最初的博客文章提醒“相关并不意味着因果”,但即便存在因果关系,其影响也十分微小。

2. 多元预测变量的回归分析

2.1 多预测变量线性模型

2.1.1 系数估计

以棒球运动员的体重预测为例,我们使用线性模型“mean weight = c + d × height + e × age”。可以使用 R 语言中的 lm() 函数来估计系数 c、d 和 e。以下是几种不同的代码写法:

# 完整写法
> lm(mlb$Weight ∼mlb$Height + mlb$Age)
# 简洁写法
> lm( Weight ∼Height + Age , data=mlb)
# 更简洁写法
> lm( Weight ∼. , data=mlb [ , 4 : 6 ] )

运行结果如下:
| 系数 | 值 |
| — | — |
| (Intercept) | -187.6382 |
| mlb$Height | 4.9236 |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值