机器学习——回归方法（1）

最新推荐文章于 2023-11-07 09:11:09 发布

原创最新推荐文章于 2023-11-07 09:11:09 发布 · 436 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #线性回归 #回归

机器学习专栏收录该内容

2 篇文章

订阅专栏

这篇博客介绍了回归预测的起源，特别是线性回归模型的选择和数学理论基础。线性回归假设特征与结果间存在线性关系，并通过损失函数（如平方误差）来评估模型性能，通常使用最小二乘法或梯度下降法优化参数。

一、回归预测简介

现在我们知道的回归一词最早是由达尔文的表兄弟Francis Galton发明的。Galton在根据上一年的豌豆种子的尺寸预测下一代豌豆种子的尺寸时首次使用了回归预测。他在大量的对象上应用了回归分析，包括人的身高。他注意到，如果双亲的高度比平均高度高的话，则他们的子女也倾向于比平均身高高，但尚不及双亲。孩子的身高向着平均高度回退（回归）。Galton在多项研究上都注意到这个现象，所以尽管这个单词跟数值预测没有任何关系，但是仍然把这种方法称为回归。

二、回归方法的适用条件：

1）收集的数据是数值型数据，或可转为数值型数据

2）建立数学模型，即一个函数，这个函数里含有未知的参数，通过对收集到的数据进行学习，可以估计出参数。然后利用这个模型去预测/分类新的数值型数据。

3）在对数值型数据的处理后，具体的适用条件见后面具体的回归算法

三、线性回归模型选择

线性回归假设特征和结果满足线性关系，

四、数学理论部分

其实线性关系的表达能力非常强大，每个特征对结果的影响强弱可以有前面的参数体现，而且每个特征变量可以首先映射到一个函数，然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。

收集的数据中，每一个分量，就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数，我们可以用 $x_{1},$ $x_{2},...,x_{n}$ 去描述 feature （特征）里面的分量，比如为了预测房屋的价格，可以设 x1=房间的面积， x2=房间的朝向，等等，我们可以做出一个估计函数：

$h(x)=h_{\Theta }(x)=\Theta_{0}+\Theta_{1}x_{1}+\Theta _{2}x_{2}+...$

θ 在这儿称为参数，在这的意思是调整 feature 中每个分量的影响力，就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令 X0 = 1，就可以用向量的方式来表示了：
$h_{\Theta }(x)=\Theta_{0}x_{0}+\Theta_{1}x_{1}+\Theta _{2}x_{2}+...=\Theta ^{T}X$

我们程序也需要一个机制去评估我们 θ 是否比较好，所以说需要对我们做出的 h 函数进行评估，一般这个函数称为损失函数（loss function）或者错误函数(error function)，描述 h 函数不好的程度，在下面，我们称这个函数为 J 函数
$J(\Theta )=\frac{1}{2} \sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})^{2}$