线性回归的原理

最新推荐文章于 2024-06-20 18:34:12 发布

原创

最新推荐文章于 2024-06-20 18:34:12 发布 · 731 阅读

3 ·

CC 4.0 BY-SA版权

1.了解线性回归

先了解一些概念：监督学习、无监督学习、半监督学习、分类、回归、特征、标签
（1）特征：样本的输入，描述样本的一些属性，例如：西瓜的颜色、根蒂、声响等等
（2）标签：样本的输出，例如：在分类中，标签可以是西瓜的分类，例如好瓜、坏瓜（离散值）；在回归任务中，标签可以是西瓜的含糖量（连续值）
（3）监督学习：训练数据包括样本的特征和标签，监督学习分为两种：分类和回归。
分类任务中预测的是离散值（再举一个例子：是否患病），回归任务预测的是连续值（房屋价格）。
（4）无监督学习：训练数据中只包含样本的一些特征，不包含标签，典型的无监督学习的例子是聚类。
（5）半监督学习：训练数据中有一部分样本是有标签的，而其余的是没有标签的，实际情况下没有标签的样本远多于有标签的样本。

那么究竟什么是线性回归？
西瓜书给出的解释：
在这里插入图片描述
通俗的理解：
现在我们手上有一堆数据（用于训练模型的数据，也称训练集），这些数据有自己的特征x和相应的输出标记y，而我们的目的是找出y跟x之间的一种线性关系，建立一个线性模型，我们的目的是使得训练集与模型尽量的拟合，这样新来了一些数据，在我们不知道输出标记的情况下，就可以通过我们之前得出的模型去求出预测值，我们的最终目的是让这个预测值尽可能的接近真实值（模型的泛化能力要强，泛化误差要小）。所有其他的机器算法大概也是这个套路，不过得出的模型不是线性模型罢了。
2.深入线性回归
（1）用数学表达线性回归
在这里插入图片描述
这里的x表示样本的特征，θ1、θ2表示样本特征的权重，θ0表示一个偏移量，其中我们要求的是参数θ，求出了θ，将新来的样本x代入可以得到一个预测值