【机器学习】快速入门回归算法

机器学习回归算法快速入门

最新推荐文章于 2024-06-19 09:58:54 发布

原创

最新推荐文章于 2024-06-19 09:58:54 发布 · 1.1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #回归 #人工智能

线性回归(Linear Regression, LR).png

引入回归算法

什么是“回归”？

回归的全称是，“Regression towards the mean”。**直接翻译过来就是向着中间值回归。直白点说，就是在图像上给你一堆点，你来找一条线，然后让这条线尽可能的在所有点的中间。**这个找直线的过程，就是在做回归了。如下图所示

进一步思考：为什么非要找这么一条尽可能的在所有点的中间的直线？

我们面对的是一堆散乱的点，看不出具体的相关关系，而线能够体现趋势。所以，我们就是想办法来找一条尽可能在所有点的中间的直线，代表一个数据的整体趋势，让数据的整体关系更加清晰可见，这样就方便我们预判未来的情况

总结:

回归的目的：通过找到的线来预测未来
回归之所以能预测，是因为它的底层逻辑是：通过历史数据，摸透了“套路”，然后通过这个套路来预测未来的结果

什么是“线性”？

“线性”就是说，“回归”找到的线是直的。

线性关系不仅仅只能存在 2 个变量（二维平面）。3 个变量时（三维空间），线性关系就是一个平面，4 个变量时（四维空间），线性关系就是一个体。以此类推…

什么是线性回归？

如果你在上面找线的过程所找的线直的（即是线性的），那么这个找直线的过程就是“线性回归”

线性回归(LR)可分为：简单一元线性回归和多元线性回归，也就是我们平时接触的一次线性方程和多次线性方程，二者的主要区别也就是未知项的个数

什么是回归算法

回归算法是一种有监督算法
建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系
从机器学习的角度来讲，用于构建一个算法模型(函数)来做属性(X)与标签(Y)之间的映射关系，在算法的学习过程中，

试图寻找一个函数 $h: R^d->R$ ，使得参数之间的关系拟合性最好。

回归算法中算法(函数)的最终结果是一个连续的数据值，输入值(属性值)是一个d维度的属性/数值向量

线性回归

作用: 连续值的预测

最优模型: 最优模型也就是所有样本(训练数据)离模型的直线或者平面距离最小

线性关系: 特征属性X和目标属性Y之间的关系是满足线性关系

$KaTeX parse error: {split} can be used only in display mode.$

目标属性h(x)，x代表特征值，x前面的代表参数，θ要求解的。求出后就可以确定h(x)

θ(T): (1, n), x: (n, 1), 等号右边是一个标量

机器学习中通常采用列向量为基本向量，所以需要要把θ转置为行向量

损失函数

如何找到“合适”的那条直线？

两步解决：

step1：想办法表示出这条直线到所有数据点的距离
step2：让这个距离最小！

假设函数计算出的点 $\hat{y_i}$ ** 与真实数据点** $\text{y}$ 的间隔（差值）就是我们要找的点到直线的距离。机器学习里将这个差值叫误差，其表达式：

$\varepsilon=y_i-\hat{y}_i$

$\sum\varepsilon^2=\sum(y-\hat y_i)^2=\sum(y-w_0-w_1x)^2$

在机器学习中，人们也称误差为损失，所以这种求误差的方法也可以说是求损失的方法。而SSE也就是线性回归中最常用的损失函数了