从零开始的Python机器学习指南（二）——监督学习之OLS回归

EricFrenzy

已于 2023-07-01 16:40:18 修改

阅读量1.3k

点赞数 1

分类专栏：小白也能看懂的机器学习指南文章标签： python 机器学习回归 machine learning

于 2023-06-22 08:18:52 首次发布

本文链接：https://blog.youkuaiyun.com/EricFrenzy/article/details/131298610

版权

本文介绍了监督学习中的重要分支——回归，特别是线性回归。通过解释回归问题的本质，即寻找最佳映射函数以最小化误差平方和，展示了线性回归作为优化问题的特性。利用sklearn库，文章展示了如何在Python中实现线性回归模型，并通过交叉验证评估模型性能。最后，讨论了线性回归的应用场景及预测的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

本博客将结合样例介绍监督学习/Supervised Learning/SL下的第一大分支：回归/Regression。

开始前，请先确保你的python环境中有以下包：
pandas，numpy，sklearn。

本文的所有代码可在Anaconda的Jupyter Lab里运行。

首先来理解下：为什么回归/Regression是一种监督学习？这个问题的本质是什么？

我们首先要理解回归问题的本质。简单来说，回归问题的本质是，对于一个映射 $f$ ,
$f:\mathbb{R}^n\mapsto \mathbb{R}$
，我们有它定义域/Domain和对应域/Codomain的一些数组。我们想要通过这些已有的数据来找到一个最符合这些数据的模型/回归函数。

换个角度看，对于每一条数据，该映射的定义域可以理解为特征集/Feature Set，其对应域可理解为标签集/Label Set。我们要找的就是未知的映射函数，对应着机器学习里的黑箱模型/Blackbox Model。

但是要把它变成一个完全的监督学习问题，我们还需要定义下我们要优化的目标是什么。既然我们要找到最符合数据的映射，我们可以考虑最小化误差平方和/Sum of Squared Errors/SSE。对于一个有 $m$ 条数据的数据集和一个对应的映射 $f$ ，该映射对于该数据集的误差平方和定义为

$\ell = \sum_{i=1}^m \Big(y^{(i)} - f\big({\bf x}^{(i)}\big)\Big)^2$

，也就是把每一条数据的真实标签和映射的预测标签的差进行平方后求和。如果我们把误差平方和作为监督学习的损失函数/Loss Function，则该回归问题可被称为普通最小二乘法线性回归问题/OLS Linear Regression。我们要做的就是找到映射 $f$ ，使得误差平方和最小。

我们把这个问题更加严谨地下个定义。让 ${\bf x}$ 作为特征集， $\bf w$ 作为每个特征的权重集，则对于线性映射
$f({\bf x; w}) = {\bf w}^T\cdot{\bf x}=w_0x_0+w_1x_1+...+w_nx_n$