1. 概念
1)前言
之前学习了分了算法,分类问题的目标值一般为离散的数据,如这部电影的类别(喜剧,动作…),这个人是否能得到贷(能,否)等,可以看出分类问题的答案之间有很明显的界限,是非黑即白的存在。
回归问题则不同,回归问题的目标值,即我们所讨论的问题的答案是连续的,答案与答案之间是相互关联的,比如,预测这个人能得到的贷款额度,预测房价,预测这个月的销售业绩等。这些问题的目标值是一个连续的区间,如预测这里的房价在7k-10k等。
因为离散和连续的区别,在判别回归问题所预测出的目标值时,不再像分类问题一样,其预测的目标值不再存在绝对错误(这部电影的类型是喜剧,你却预测为爱情片)。回归问题的预测值只存在与真实值的差距,所以我们评判预测的是否准确时,以预测值与真实值之间的距离为依据。
2)定义
线性回归(Linear regression)是利用回归方程对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
即用一种函数来表达特征值与目标值之间的关系,并且这种关系能尽量拟合特征值与目标值的变化,在有新的特征值以便于我们去预测其目标值。———————这种函数关系被称为:线性模型
一元线性回归:涉及到的变量只有一个。
多元线性回归:涉及到的变量有两个以上。
3)