机器学习中的监督学习:线性回归与分类
1. 线性回归基础
线性回归旨在通过数据拟合一条直线,从而从自变量(X)中提取线性关系。以最简单的情况为例,只有一个自变量 X 和一个因变量 Y,线性回归方程可以写成:
Y = X * w + b
其中,w 是权重,b 是偏置项。这意味着 Y 是 X 的线性函数,X 增加时 Y 也会增加,反之亦然。不过在现实世界中,很少有情况能呈现出可以用简单方程表达的清晰线性关系,但数据科学家有时会假设存在线性关系,以快速得出结果。线性回归通常所需的处理能力较少,因为有许多统计捷径可用于解决这些问题,像 Scikit - Learn 这样的机器学习库就内置了这些功能。
w 和 b 是我们需要学习的权重。w 是与变量 X 相关的常规权重,b 是偏置。即使变量 X 变为零,偏置项仍会使 Y 有一定的值,它相当于模型在没有输入影响的情况下对预测结果所做的一些假设。
我们收集大量的 X 和 Y 值样本,利用这些样本通过基本统计方法来计算 w 和 b。w 是直线的斜率,b 是截距。在只有一个 X 和一个 Y 的简单数据集中,我们会不断改变 w 和 b 的值,观察直线是否能很好地拟合数据。但实际上,我们很难得到一条能穿过所有数据点的直线,我们要找到的是使误差最小的模型,即模型线与数据集中每个点之间距离最小的模型。
下面通过一个房屋面积、地段和价格的数据集来进一步说明。如果要对这些信息拟合线性回归模型,我们可以表示为:
Price = w1 (Area
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



