目标函数/损失函数 Loss Function（最小二乘法与最小一乘法）

最新推荐文章于 2025-11-10 17:50:29 发布

原创最新推荐文章于 2025-11-10 17:50:29 发布 · 9.6k 阅读

CC 4.0 BY-SA版权

本文介绍了线性回归中的最小二乘法，当数据无法通过单条直线完美拟合时，通过计算每个点到拟合直线在Y轴距离的平方和来寻找最优直线，即最小化误差平方和的方法。最小二乘法旨在找到使得所有点到直线距离平方和最小的模型。

线性回归这篇文章最后讲到当有多个“学历-工资”数据无法穿过同一条直线的时候，我们最直观的想法就是『折衷』一下，在这三个数据，三条线中间取得某种平衡作为我们的最终结果，类似于图中的红线这样：
这里写图片描述
那怎么取平衡呢？那我们现在必须引入误差的存在，也就是我们要承认观测到的数据中有一些因素是不可知的，不能完全的被学历所解释。而这个不能解释的程度，自然就是每个点到红线在Y轴的距离。

但是我们尽管痛苦的承认了有不能解释的因素，但是我们依然想尽可能的让这种『不被解释』的程度最小，于是我们就想最小化这种不被解释的程度。因为点可能在线的上面或者下面，故而距离有正有负，取绝对值又太麻烦，于是我们就直接把每个距离都取一个平方变成正的，然后试图找出一个距离所有点的距离的平方最小的这条线，这就是最小二乘法了，简单粗暴而有效。

最小二乘法

这里写图片描述
什么叫最好的模型？最好的模型就是使训练集中每一个真实数据与均值之间的误差的和（假设记作Q）最小（暂不考虑过拟合），那么首先要有个方法来计算Q。下列公式中， $y_{i}$ 就是图中的Actual value， $y_{ie}$ 就是图中的Predicted value。 $y_{i} - y_{ie}$ 就是在计算每一个真实的测量数据与均值之间的误差。