线性回归:原理、应用与评估
一、预测基础:均方误差与均值预测
在数据预测中,我们常常需要选择一个合适的数值来进行预测。从均方误差(MSE)的角度来看,使用数据集中的均值进行预测往往能使误差最小。例如,观察相关数据可知,除了 73 这个均值外,其他猜测值都会导致更差的预测结果。这其实是一个可以通过数学证明的理论结果:为了最小化平方误差,我们应该预测数据集中的均值。
这一结论对于我们利用额外信息进行预测有着重要的启示。以吸烟信息为例,其预测价值应该通过使用该信息后相较于仅使用均值进行预测所获得的改进程度来衡量。
二、虚拟变量回归:利用二元信息改进预测
当我们有二元区分的信息时,如是否吸烟,我们可以通过分别估计吸烟者和非吸烟者的平均死亡年龄,然后根据新个体是否吸烟来使用这两个不同的值进行预测。这里我们使用均方根误差(RMSE),它在机器学习领域更为常用。
以下是在 R 语言中计算 RMSE 的具体步骤:
1. 读取数据:
ages <- read.csv('data/longevity.csv')
- 计算仅使用均值预测的 RMSE:
constant.guess <- with(ages, mean(AgeAtDeath))
with(ages, sqrt(mean((AgeAtDeath - constant.guess) ^ 2)))
超级会员免费看
订阅专栏 解锁全文
2451

被折叠的 条评论
为什么被折叠?



