线性回归入门:从理论到实践
线性回归是一种强大的统计技术,但同时也充满挑战。本文将深入探讨线性回归的基本概念、应用场景、操作步骤以及常见的陷阱,帮助你更好地理解和运用这一技术。
线性回归概述
线性回归是一种用于分析变量之间关系的统计方法,在科学研究中应用广泛。许多声称“科学家发现某事物与另一事物之间存在联系”的研究,大多基于回归分析。研究人员使用回归分析主要有两个目的:
- 估计变量贡献 :通过回归分析,可以估计不同可观测输入对可观测输出的贡献程度。例如,我们可以估计美国各县的外星人访问(可观测输入)对该县ZeroAccess感染率(可观测输出)的影响。
- 预测输出结果 :回归分析的输出是一个公式,给定特定的输入,就可以预测输出结果。例如,医生可以根据身高、性别、年龄等变量,预测一个人的预期体重范围。
简单示例:创建虚拟数据
为了演示线性回归的两个目的,我们将创建虚拟数据。首先,使用 rnorm() 函数生成200个均值为10的随机数据点作为输入变量:
# for reproducability
set.seed(1)
# generate 200 random numbers around 10
input <- rnorm(200, mean=10)
summary(input)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.785 9.386 9.951 10.040 10
超级会员免费看
订阅专栏 解锁全文
1120

被折叠的 条评论
为什么被折叠?



