线性回归模型的构建、评估与优化
1. 特征选择与简单线性回归模型引入
在构建线性回归模型时,我们关注与目标变量MEDV(房价)高度相关的特征。通过查看相关矩阵,发现目标变量MEDV与LSTAT变量的相关性最大(-0.74),但从散点图矩阵可知,LSTAT和MEDV之间存在明显的非线性关系。而RM与MEDV的相关性也较高(0.70),且二者在散点图中呈现线性关系,因此RM是引入简单线性回归模型概念的理想探索变量。
2. 普通最小二乘法(OLS)线性回归模型的实现
线性回归可理解为通过训练数据示例找到最佳拟合直线。我们使用普通最小二乘法(OLS)来估计线性回归线的参数,该方法能最小化训练示例的垂直距离平方和(残差或误差)。
2.1 梯度下降求解回归参数
回顾第2章中自适应线性神经元(Adaline)的实现,它使用线性激活函数和代价函数$J(w)$,通过梯度下降(GD)和随机梯度下降(SGD)等优化算法最小化该代价函数来学习权重。Adaline中的代价函数是误差平方和(SSE),与OLS使用的代价函数相同:
$J(w) = \frac{1}{2} \sum_{i=1}^{n} (y^{(i)} - \hat{y}^{(i)})^2$
其中,$\hat{y}$是预测值$\hat{y} = w^T x$。实际上,OLS回归可看作没有单位阶跃函数的Adaline,这样我们能得到连续的目标值而非类别标签 -1 和 1。以下是实现的第一个线性回归模型代码:
import numpy as np
class LinearRegressionGD(o
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



