机器学习中的线性回归
机器学习是人工智能的一个分支,专注于开发能够从数据中学习并做出预测的算法和统计模型。线性回归也是一种机器学习算法,更具体地说是一种监督机器学习算法,它从标记数据集中学习并将数据点映射到最优化的线性函数,可用于对新数据集进行预测。
首先,我们应该知道什么是监督机器学习算法。它是一种机器学习,算法从标记数据中学习。标记数据是指其各自目标值已知的数据集。监督学习有两种类型:
- 分类:它根据独立输入变量预测数据集的类别。类别是分类值或离散值。例如,动物的图像是猫还是狗?
- 回归:它根据独立输入变量预测连续输出变量。例如根据房屋年龄、与主干道的距离、位置、面积等不同参数预测房价。
在这里,我们将讨论最简单的回归类型之一,即线性回归。
目录
- 什么是线性回归?
- 线性回归的类型
- 最佳拟合线是多少?
- 线性回归的成本函数
- 简单线性回归的假设
- 多元线性回归的假设
- 线性回归的评估指标
- 线性回归的 Python 实现
- 线性模型的正则化技术
- 线性回归的应用
- 线性回归的优点和缺点
- 线性回归 – 常见问题 (FAQ)
什么是线性回归?
线性回归是一种监督机器学习算法,它通过将线性方程拟合到观察到的数据来计算因变量和一个或多个独立特征之间的线性关系。
当只有一个独立特征时,它被称为简单线性回归,而当有多个特征时,它被称为 多元线性回归。
类似地,当只有一个因变量时,它被认为是 单变量线性回归,而当有多个因变量时,它被称为多元回归。
为什么线性回归很重要?
线性回归的可解释性是其显著优势。该模型的方程提供了清晰的系数,阐明了每个独立变量对因变量的影响,有助于更深入地理解潜在的动态关系。它的简单性是一种优点,因为线性回归是透明的、易于实现的,并且可以作为更复杂算法的基础概念。
线性回归不仅仅是一种预测工具,它还是各种高级模型的基础。正则化和支持向量机等技术从线性回归中汲取灵感,扩大了其实用性。此外,线性回归是假设检验的基石,使研究人员能够验证有关数据的关键假设。
线性回归的类型
线性回归主要有两种类型:
简单线性回归
这是最简单的线性回归形式,它仅涉及一个独立变量和一个因变量。简单线性回归的方程为:
Y = β0 + β1*X
,其中:
- Y 是因变量
- X 是独立变量
- β0 是截距
- β1 是斜率
多元线性回归
这涉及多个独立变量和一个因变量。多元线性回归方程为:
Y = β0 + β1*X1 + β2*X2+......+βn*Xn
其中:
- Y 是因变量
- X1, X2, …, Xn 是独立变量
- β0 是截距
- β1, β2, ..., βn 是斜率
算法的目标是找到能够根据独立变量预测值的最佳拟合线方程。
在回归中,记录集包含 X 和 Y 值,这些值用于学习函数,因此如果您想根据未知的 X 预测 Y,可以使用这个学习函数。在回归中,我们必须找到 Y 的值,因此,需要一个函数来预测回归中的连续 Y,给定 X 作为独立特征。
最佳拟合线是多少?
使用线性回归的主要目标是找到最佳拟合线,这意味着预测值和实际值之间的误差应保持在最小。最佳拟合线的误差最小。
最佳拟合线方程提供了一条直线,表示因变量和自变量之间的关系。直线的斜率表示自变量每变化一个单位,因变量的变化量是多少。
线性回归
这里 Y 称为因变量或目标变量,X 称为自变量,也称为 Y 的预测变量。有许多类型的函数或模块可用于回归。线性函数是最简单的函数类型。这里,X 可能是代表问题的单个特征或多个特征。
线性回归执行的任务是根据给定的独立变量 (x) 预测因变量值 (y)。因此,名称为线性回归。在上图中,X(输入)是工作经验,Y(输出)是个人的薪水。回归线是我们模型的最佳拟合线。
我们利用成本函数来计算最佳值以获得最佳拟合线,因为不同的权重值或线系数会导致不同的回归线。
线性回归中的假设函数
正如我们之前假设的那样,我们的独立特征是经验,即 X,而相应的薪水 Y 是因变量。假设 X 和 Y 之间存在线性关系,那么可以使用以下公式预测薪水:
Y = θ 1 + θ 2*X
或者
Y(i) = θ 1 + θ 2*X(i)
这里,
- Y(i) i=1,2,.....n 是数据的标签(监督学习)
- X(i) i=1,2,.....n 是输入独立训练数据(单变量 - 一个输入变量(参数)&#x