Swirl课程中的回归模型入门:从高尔顿数据理解回归分析

Swirl课程中的回归模型入门:从高尔顿数据理解回归分析

swirl_courses :mortar_board: A collection of interactive courses for the swirl R package. swirl_courses 项目地址: https://gitcode.com/gh_mirrors/sw/swirl_courses

回归分析的起源:高尔顿与"回归均值"现象

回归分析是现代统计学中最基础也最重要的工具之一,它的起源可以追溯到19世纪弗朗西斯·高尔顿(Francis Galton)对父母与子女身高关系的研究。高尔顿发现了一个有趣的现象:身高特别高的父母,其子女的身高往往会比父母矮一些;而身高特别矮的父母,其子女的身高往往会比父母高一些。这种现象被称为"回归均值"(regression to the mean)。

数据可视化:理解变量间关系

在数据分析中,可视化是理解变量间关系的第一步。对于高尔顿收集的父母与子女身高数据:

  1. 原始数据图:当我们直接绘制父母身高(x轴)与子女身高(y轴)的关系时,会发现许多数据点重叠在一起。这是因为身高测量存在一定误差,且许多人的身高值相同。

  2. 抖动处理(jitter):为了解决数据点重叠的问题,我们可以对子女身高值添加少量随机噪声(称为"抖动"),使原本重叠的点稍微分散开来,从而更清晰地观察数据分布。

  3. 参考线

    • 恒等线(identity line):斜率为1的直线,表示如果子女身高完全等于父母身高,数据点应分布在这条线附近
    • 回归线(regression line):通过最小化数据点到直线的垂直距离平方和而得到的最佳拟合直线

R语言实现回归分析

在实际操作中,我们可以使用R语言轻松完成上述分析:

# 绘制原始数据图(无抖动)
plot(child ~ parent, data = galton)

# 绘制抖动后的数据图
plot(jitter(child, 4) ~ parent, data = galton)

# 拟合线性回归模型
rgrline <- lm(child ~ parent, data = galton)

# 添加回归线到图中(红色粗线)
abline(rgrline, lwd = 2, col = 'red')

解读回归结果

使用summary(rgrline)可以查看回归模型的详细结果,其中最重要的信息包括:

  1. 斜率(系数):表示父母身高每增加1单位,子女身高的平均变化量。在高尔顿数据中,这个值约为0.65,小于1,证实了"回归均值"现象。

  2. 标准误(Standard Error):衡量斜率估计的精确度。根据统计理论,真实斜率值有约95%的概率落在估计值±2倍标准误的范围内。

  3. 显著性:如果斜率的95%置信区间不包含0,说明父母身高对子女身高的影响是统计显著的。在高尔顿数据中,斜率显著不为0(存在影响),也显著不为1(存在回归均值现象)。

回归均值的数学表达

通过在高尔顿数据图上添加父母和子女的平均身高线,我们可以更直观地理解回归均值:

  • 比平均身高高1英寸的父母,其子女平均比总体均值高约0.65英寸
  • 比平均身高矮1英寸的父母,其子女平均比总体均值矮约0.65英寸

这种"部分回归"现象表明,极端值(非常高或非常矮)的后代往往会向总体均值靠拢,而不是完全保持父母的极端特征。

回归分析的现代意义

虽然高尔顿的研究对象是身高,但回归分析的思想已经广泛应用于各个领域:

  1. 经济学:研究GDP增长与失业率的关系
  2. 医学:分析药物剂量与治疗效果的关系
  3. 工程学:建立工艺参数与产品质量的预测模型

理解回归分析不仅能帮助我们建立变量间的定量关系,还能避免"因果混淆"等常见的数据解读错误。通过Swirl课程的这个入门模块,学习者可以掌握回归分析的基本概念和R语言实现方法,为后续更复杂的统计建模打下坚实基础。

swirl_courses :mortar_board: A collection of interactive courses for the swirl R package. swirl_courses 项目地址: https://gitcode.com/gh_mirrors/sw/swirl_courses

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

解卿靓Fletcher

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值