1. 引言:预测的艺术与科学
在机器学习领域,线性回归堪称最基础、最重要的算法之一。自1805年勒让德首次提出最小二乘法以来,这一方法始终是数据分析的核心工具。根据Google Scholar统计,过去5年关于线性回归的研究论文引用量超过120万次,在Kaggle竞赛中,超过78%的baseline模型使用线性回归作为起点。本文将深入剖析一元线性回归的数学原理,揭示最小二乘法的本质,并通过Python代码实现完整的房价预测案例。
2. 线性回归的数学建模
2.1 基本形式与假设
一元线性回归模型描述自变量x与因变量y之间的线性关系:
hθ(x)=θ0+θ1x h_\theta(x) = \theta_0 + \theta_1x hθ(x)=θ0+θ1x
几何视角:在n维空间中寻找最佳拟合超平面,使得所有样本点到超平面的垂直距离平方和最小。对于一元情况,即在二维平面中寻找最佳直线。
2.2 误差项的正态性证明
假设真实关系为:
y=θ0+θ1x+ϵ y = \theta_0 + \theta_1x + \epsilon y=θ0+θ1x+ϵ
根据中心极限定理,当存在多个独立微小误差源时,ϵ\epsilonϵ服从正态分布:
ϵ∼N(0,σ2) \epsilon \sim N(0, \sigma^2) ϵ∼N(0,σ2)
证明过程:
- 设总误差ϵ=∑i=1kϵi\epsilon = \sum_{i=1}^k \epsilon_iϵ=∑i=1kϵi,其中每个ϵi\epsilon_iϵi为独立误差源
- 根据Lindeberg-Feller中心极限定理
- 当k→∞k \to \inftyk→∞时,ϵ\epsilonϵ趋近正态分布
2.3 损失函数:均方误差
从极大似然估计角度推导MSE:
似然函数:
L(θ)=∏i=1m12πσ2exp(−(y(i)−(θ0+θ1x(i)))22σ2) L(\theta) = \prod_{i=1}^m \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - (\theta_0 + \theta_1x^{(i)}))^2}{2\sigma^2}\right) L(θ)=i=1∏m2πσ21exp(−2σ2(y(i)−(θ0+θ1x(i)))2)
对数似然:
logL(θ)=−m2log(2πσ2)−12σ2∑i=1m(y(i)−hθ(x(i)))2 \log L(\theta) = -\frac{m}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^m (y^{(i)} - h_\theta(x^{(i)}))^2 logL(θ)=−2mlog(2πσ2)−2σ21i=1∑m(y(i)−h