线性回归
线性回归基本概念
线性回归是一种预测模型,它用于分析两个或多个变量之间的关系。在简单的线性回归中,我们通常有一个目标变量(称为响应变量或因变量)和一个或多个预测变量(称为解释变量或自变量)。目标是找到一条直线(在多元情况下是超平面),使得这条直线尽可能地拟合数据点,即最小化预测值和实际值之间的差异。
线性回归的基本原理是通过最小化误差平方和来寻找最佳拟合直线。误差平方和是每个数据点到直线的距离(即预测值和实际值之间的差异)的平方的总和。在二维空间中,这条直线可以表示为y = ax + b的形式,其中a是斜率,b是截距。
线性回归的主要步骤包括:
数据收集:收集相关的输入变量(自变量)和目标变量(因变量)的数据。
数据预处理:包括数据清洗、异常值处理、特征选择等。
模型拟合:使用最小二乘法或其他方法来找到最佳拟合直线的参数a和b。
模型评估:使用诸如均方误差(MSE)的指标来评估模型的性能。
预测:使用模型对新数据进行预测。
线性回归的一个重要假设是数据点之间存在线性关系,即响应变量可以被解释变量线性预测。
简单线性回归
简单线性回归模型的数学表达式为:
y = a * x + b
其中:
y 是因变量(目标变量)
x 是自变量(预测变量)
a 是斜率,表示自变量x每变化一个单位,因变量y预期的平均变化量
b 是截距,表示当自变量x为0时,因变量y的值
机器学习中的最优解
Actual value:真实值,即已知的y
Predicted value:预测值,是把已知的x 带入到公式里面和猜出来的参数a,b 计算得到的
Error:误差,预测值和真实值的差距
最优解:尽可能的找到一个模型使得整体的误差最小,整体的误差通常叫做损失Loss
Loss:整体的误差,loss 通过损失函数loss function 计算得到
MSE,即均方误差(Mean Squared Error)