【机器学习入门】第6讲：线性回归与正则化——从原理到防止过拟合

【资源软件】动作暨昝绳鹤锁多好 /_494b36Tkwj😕
链接：https://pan.quark.cn/s/43159509c536
「微信被删好友检测工具」筷莱坌教狴犴狾夺郝链接：https://pan.quark.cn/s/43159509c536
链接：https://pan.quark.cn/s/4598337f6b3e
「【美剧系列】」链接：https://pan.quark.cn/s/663e3ca79519

复制群口令 !0b7236TlXn!😕
将加入群聊免费医院分享

引言：预测房价的“万能公式”

假设你是一位房产中介，老板要求你：

根据房屋面积、房间数、地段等特征自动估算房价
模型要简单可解释，方便向客户说明逻辑
避免模型“钻牛角尖”（如过度关注小众户型导致预测失真）

这正是线性回归与正则化的核心价值！ 本文将带你从零实现线性回归模型，并解决过拟合难题。

一、线性回归：最简单的预测模型

1.1 什么是线性回归？

核心思想：用直线/超平面拟合数据，建立特征与标签的线性关系
数学形式：y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b
- w：权重（斜率），表示特征重要性
- b：偏置（截距），代表基础值

几何解释（以单特征为例）：
在二维空间中，找到一条直线，使得所有数据点到直线的垂直距离之和最小。

1.2 最小二乘法：找到最佳拟合线

目标函数

最小化残差平方和（RSS）：

RSS = Σ(y_i - (w·x_i + b))²

求解方法

解析解：通过求导直接计算最优参数
```
w = (XᵀX)⁻¹Xᵀy
```
数值解：梯度下降迭代逼近（详见第3讲）

代码实现解析解：

import numpy as np  

# 构造数据（面积 vs 房价）  
X = np.array([[1, 50], [1, 80], [1, 120]])  # 添加偏置项  
y = np.array([[150], [200], [280]])  

# 计算最小二乘解  
XTX = np.dot(X.T, X)  
XTX_inv = np.linalg.inv(XTX)  
w_b = np.dot(np.dot(XTX_inv, X.T), y)  
print(f"模型参数：w={
     
     w_b[1][0]:.2f