机器学习项目中的线性回归正规方程实现解析

原创于 2025-06-05 09:08:22 发布 · 381 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习项目中的线性回归正规方程实现解析

Machine-Learning-Collection A resource for learning about Machine learning & Deep Learning 项目地址: https://gitcode.com/gh_mirrors/ma/Machine-Learning-Collection

线性回归与正规方程简介

线性回归是机器学习中最基础且重要的算法之一，它通过建立特征与目标变量之间的线性关系来进行预测。在众多求解线性回归参数的方法中，正规方程(Normal Equation)是一种解析解法，可以直接计算出最优参数，而不需要像梯度下降那样进行迭代。

正规方程数学原理

正规方程的核心公式为：

θ = (XᵀX)⁻¹Xᵀy

其中：

θ 是待求的参数向量
X 是特征矩阵（包含所有训练样本的特征）
y 是目标值向量

这个公式的推导基于最小二乘法，通过最小化损失函数（通常是均方误差）来得到最优解。

代码实现解析

在项目中实现的linear_regression_normal_equation函数展示了如何使用NumPy实现正规方程：

添加偏置项：首先在特征矩阵X前添加一列全1的向量，这是为了包含截距项（偏置项）。
```
ones = np.ones((X.shape[0], 1))
X = np.append(ones, X, axis=1)
```
计算正规方程：使用NumPy的线性代数模块计算参数。
```
W = np.dot(np.linalg.pinv(np.dot(X.T, X)), np.dot(X.T, y))
```
这里使用了伪逆(np.linalg.pinv)而不是常规逆矩阵，这可以避免当XᵀX不可逆时出现的问题，提高了代码的鲁棒性。

代码测试示例

在示例中，创建了一个简单的线性关系数据集：

m, n = 500, 1
X = np.random.rand(m, n)
y = 5 * X + np.random.randn(m, n) * 0.1

这里生成了500个样本，真实斜率为5，并添加了少量高斯噪声。通过调用linear_regression_normal_equation函数，可以验证算法是否能正确恢复出接近5的参数值。

正规方程的优缺点

优点：

不需要选择学习率
不需要迭代，一次计算即可得到精确解
当特征数量不大时（通常小于10000），计算效率高

缺点：

计算XᵀX的逆矩阵时间复杂度为O(n³)，当特征数量很大时计算代价高
当特征数量大于样本数量或特征间高度相关时，XᵀX可能不可逆（虽然代码中使用伪逆解决了这个问题）

实际应用建议

对于小型数据集（特征数量<10000），正规方程是一个很好的选择
对于大型数据集或在线学习场景，梯度下降法更为适合
当特征间存在多重共线性时，可以考虑使用岭回归等正则化方法

总结

项目中实现的线性回归正规方程版本简洁高效，展示了如何使用NumPy的线性代数功能直接求解线性回归问题。理解这一实现不仅有助于掌握线性回归的核心原理，也为学习更复杂的机器学习算法奠定了基础。对于初学者来说，从正规方程入手理解线性回归是一个很好的起点，之后再过渡到梯度下降等优化方法的学习。

Machine-Learning-Collection A resource for learning about Machine learning & Deep Learning 项目地址: https://gitcode.com/gh_mirrors/ma/Machine-Learning-Collection

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

朱均添Fleming 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。