线性回归模型的构建、评估与优化
1. 选择合适特征构建线性回归模型
在构建线性回归模型时,我们关注与目标变量 MEDV 有高相关性的特征。通过查看相关矩阵可知,目标变量 MEDV 与 LSTAT 变量的相关性最大(为 -0.74),但从散点图矩阵中可发现, LSTAT 和 MEDV 之间存在明显的非线性关系。而 RM 与 MEDV 的相关性也相对较高(为 0.70),并且从散点图中能观察到这两个变量之间存在线性关系,所以 RM 是引入简单线性回归模型概念的一个不错的探索性变量。
2. 实现普通最小二乘法线性回归模型
线性回归可以理解为通过训练数据的示例找到最佳拟合直线。接下来我们使用普通最小二乘法(OLS)来估计线性回归线的参数,该方法能最小化训练示例的垂直距离平方和(残差或误差)。
2.1 使用梯度下降法求解回归参数
我们回顾之前实现的自适应线性神经元(Adaline),它使用线性激活函数,并定义了一个成本函数 J(w) ,通过梯度下降(GD)和随机梯度下降(SGD)等优化算法来最小化该成本函数以学习权重。Adaline 中的成本函数是误差平方和(SSE),这与我们用于 OLS 的成本函数相同:
[
J(w) = \frac{1}{2} \sum_{i=1}^{n} (y^{(i)} - \hat{y}^{(i)})^2
]
超级会员免费看
订阅专栏 解锁全文
2497

被折叠的 条评论
为什么被折叠?



