监督学习入门:线性回归与最小二乘法完全解读

1. 引言:预测的艺术与科学

在机器学习领域,线性回归堪称最基础、最重要的算法之一。自1805年勒让德首次提出最小二乘法以来,这一方法始终是数据分析的核心工具。根据Google Scholar统计,过去5年关于线性回归的研究论文引用量超过120万次,在Kaggle竞赛中,超过78%的baseline模型使用线性回归作为起点。本文将深入剖析一元线性回归的数学原理,揭示最小二乘法的本质,并通过Python代码实现完整的房价预测案例。

2. 线性回归的数学建模

2.1 基本形式与假设

一元线性回归模型描述自变量x与因变量y之间的线性关系:

hθ(x)=θ0+θ1x h_\theta(x) = \theta_0 + \theta_1x hθ(x)=θ0+θ1x

几何视角:在n维空间中寻找最佳拟合超平面,使得所有样本点到超平面的垂直距离平方和最小。对于一元情况,即在二维平面中寻找最佳直线。

2.2 误差项的正态性证明

假设真实关系为:
y=θ0+θ1x+ϵ y = \theta_0 + \theta_1x + \epsilon y=θ0+θ1x+ϵ
根据中心极限定理,当存在多个独立微小误差源时,ϵ\epsilonϵ服从正态分布:

ϵ∼N(0,σ2) \epsilon \sim N(0, \sigma^2) ϵN(0,σ2)

证明过程:

  1. 设总误差ϵ=∑i=1kϵi\epsilon = \sum_{i=1}^k \epsilon_iϵ=i=1kϵi,其中每个ϵi\epsilon_iϵi为独立误差源
  2. 根据Lindeberg-Feller中心极限定理
  3. k→∞k \to \inftyk时,ϵ\epsilonϵ趋近正态分布

2.3 损失函数:均方误差

从极大似然估计角度推导MSE:

似然函数:
L(θ)=∏i=1m12πσ2exp⁡(−(y(i)−(θ0+θ1x(i)))22σ2) L(\theta) = \prod_{i=1}^m \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - (\theta_0 + \theta_1x^{(i)}))^2}{2\sigma^2}\right) L(θ)=i=1m2πσ2 1exp(2σ2(y(i)(θ0+θ1x(i)))2)

对数似然:
log⁡L(θ)=−m2log⁡(2πσ2)−12σ2∑i=1m(y(i)−hθ(x(i)))2 \log L(\theta) = -\frac{m}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^m (y^{(i)} - h_\theta(x^{(i)}))^2 logL(θ)=2mlog(2πσ2)2σ21i=1m(y(i)h

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值