1.了解线性回归
先了解一些概念:监督学习、无监督学习、半监督学习、分类、回归、特征、标签
(1)特征:样本的输入,描述样本的一些属性,例如:西瓜的颜色、根蒂、声响等等
(2)标签:样本的输出,例如:在分类中,标签可以是西瓜的分类,例如好瓜、坏瓜(离散值);在回归任务中,标签可以是西瓜的含糖量(连续值)
(3)监督学习:训练数据包括样本的特征和标签,监督学习分为两种:分类和回归。
分类任务中预测的是离散值(再举一个例子:是否患病),回归任务预测的是连续值(房屋价格)。
(4)无监督学习:训练数据中只包含样本的一些特征,不包含标签,典型的无监督学习的例子是聚类。
(5)半监督学习:训练数据中有一部分样本是有标签的,而其余的是没有标签的,实际情况下没有标签的样本远多于有标签的样本。
那么究竟什么是线性回归?
西瓜书给出的解释:
通俗的理解:
现在我们手上有一堆数据(用于训练模型的数据,也称训练集),这些数据有自己的特征x和相应的输出标记y,而我们的目的是找出y跟x之间的一种线性关系,建