【python机器学习】——线性回归算法_python线性回归预测-优快云博客

本文链接：https://blog.youkuaiyun.com/m17635262186/article/details/134843423

本文详细阐述了线性回归的基本概念，包括简单线性回归模型、最小化误差平方和的方法、以及在机器学习中的应用，如正态分布下的最大似然估计。还提供了Python代码示例，展示了如何使用线性回归进行数据预测和模型训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性回归

线性回归基本概念

线性回归是一种预测模型，它用于分析两个或多个变量之间的关系。在简单的线性回归中，我们通常有一个目标变量（称为响应变量或因变量）和一个或多个预测变量（称为解释变量或自变量）。目标是找到一条直线（在多元情况下是超平面），使得这条直线尽可能地拟合数据点，即最小化预测值和实际值之间的差异。

线性回归的基本原理是通过最小化误差平方和来寻找最佳拟合直线。误差平方和是每个数据点到直线的距离（即预测值和实际值之间的差异）的平方的总和。在二维空间中，这条直线可以表示为y = ax + b的形式，其中a是斜率，b是截距。

线性回归的主要步骤包括：

数据收集：收集相关的输入变量（自变量）和目标变量（因变量）的数据。
数据预处理：包括数据清洗、异常值处理、特征选择等。
模型拟合：使用最小二乘法或其他方法来找到最佳拟合直线的参数a和b。
模型评估：使用诸如均方误差（MSE）的指标来评估模型的性能。
预测：使用模型对新数据进行预测。

线性回归的一个重要假设是数据点之间存在线性关系，即响应变量可以被解释变量线性预测。

简单线性回归

简单线性回归模型的数学表达式为：

y = a * x + b

其中：

y 是因变量（目标变量）
x 是自变量（预测变量）
a 是斜率，表示自变量x每变化一个单位，因变量y预期的平均变化量
b 是截距，表示当自变量x为0时，因变量y的值

机器学习中的最优解

Actual value：真实值，即已知的y
Predicted value：预测值，是把已知的x 带入到公式里面和猜出来的参数a,b 计算得到的
Error：误差，预测值和真实值的差距
最优解：尽可能的找到一个模型使得整体的误差最小，整体的误差通常叫做损失Loss
Loss：整体的误差，loss 通过损失函数loss function 计算得到
MSE，即均方误差（Mean Squared Error）