机器学习——线性回归（数学原理推导+Python代码实现+模型评估+实验分析）

最新推荐文章于 2024-05-05 22:39:09 发布

原创

最新推荐文章于 2024-05-05 22:39:09 发布 · 3.6k 阅读

35 ·

CC 4.0 BY-SA版权

文章标签：

#原理推导 #实验分析 #模型评估

本文深入探讨了线性回归的数学原理，包括一元和多元线性回归的模型描述和误差分析。通过梯度下降法介绍了参数求解，并展示了代码实现过程。此外，文章还讨论了模型评估方法，如交叉验证和混淆矩阵，以及如何通过调整学习率和正则化避免过拟合。最后，通过实验分析强调了数据量、模型复杂度和正则化对结果的影响。

机器学习——线性回归

（一）线性回归原理推导

线性回归：用一条直线较为精确地描述数据之间的关系。这样当出现新的数据的时候，就能够预测出一个简单的值。

1.1 模型描述

线性回归按变量数量的多少可以分为：一元线性回归（简单线性回归）和多元线性回归。

一元线性回归（有一个自变量），模型可以表示如下：
$y=\theta _{0}+\theta _{1}x_{1}+\varepsilon$

$x$ ：自变量（数据）
$y$ ：因变量（标签）
$\theta _{0}$ ：截距
$\theta _{1}$ ：变量回归系数
$\varepsilon$ : 误差项的随机变量

$\theta _{0}+\theta _{1}x$ ：反映了由于x的变化而引起的y的线性变化。
$\varepsilon$ ：反映了除了x和y之间的线性关系之外的随机因素对y的影响。也可以说是真实值和预测值之间的误差。希望这个误差项越小越好，并且接近于0。

误差 $\varepsilon$ 是独立并且具有相同的分布，服从均值为0，方差为 $\theta ^{2}$ 的高斯分布。(没有数据可以100%服从这个分布，但不代表这个事情做不了，数学原理是推导理论的支撑，实际上，数据来源于生活，服务于生活，就足够了，没有绝对正确的东西，我们得到的是一个近似的，最优的结果)

多元线性回归（有多个自变量），模型可以表示如下：
$y=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+...+\theta _{k}x_{k}+\varepsilon$

$h_{\theta }(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+...+\theta _{k}x_{k}$ ：拟合的平面（如图，平面方程估计的结果就是预测值，红色的点是真实值）

$\theta _{0}$ ：偏置项（在训练过程中，使模型能够更精准做的微调）
$\theta _{1}，\theta _{2}...$ ：权重项（核心影响因素）

注意：数据x是一个矩阵，行代表样本，列代表特征，所有对数据的操作，都是对矩阵的操作。而 $\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+...+\theta _{k}x_{k}$ 多了 $\theta _{0}$ ，由于 $\theta _{0}$ 的存在，没办法转换为矩阵，如果找到 $x _{0}$ 和 $\theta _{0}$ 组合在一起就可以转换为矩阵形式，而 $x_{1}$ ， $x_{2}$ 都是实际存在的特征，可以创建新的一列 $x _{0}$ ，值全为1，因为1乘以一个数等于它本身。