线性回归、正则化与分类:原理、方法与应用
1. 梯度下降与随机梯度下降
1.1 梯度下降的局限性
梯度下降搜索在非凸表面上寻找局部最小值,但不能保证得到全局最优解。不过在实际的非凸优化问题中,它仍然是有用的。为了尽可能接近全局最优解,我们应该从不同的初始化点反复进行搜索,然后选择找到的最佳局部最小值作为我们的解。
1.2 随机梯度下降的原理
传统的梯度下降在计算损失函数的偏导数时,需要遍历所有的训练点。以出租车数据集的线性回归为例,为了确定朝着目标前进一步的最佳方向,可能需要进行8000万次平方差计算,这显然是非常耗时的。
随机梯度下降是一种基于采样一小批训练点(理想情况下是随机采样)来估计当前位置导数的优化方法。使用的批量大小越小,评估速度就越快,但我们对估计方向的正确性应该更加谨慎。通过优化梯度下降的学习率和批量大小,可以实现对凸函数的快速优化。
为了避免在搜索的每一步都进行随机选择带来的高成本,我们可以先对训练示例的顺序进行一次随机化,然后按顺序构建批量。这样可以确保所有的训练实例最终都能对搜索做出贡献,并且在优化过程中可能会多次参与。
2. 通过正则化简化模型
2.1 线性回归的问题
线性回归会尽力为任何一组数据点找到最佳的线性拟合,但这种“最佳”拟合可能并不是我们真正想要的。许多可能的特征与目标变量可能不相关,没有实际的预测能力,通常表现为系数较小的变量。回归算法会利用这些变量来微调直线,以减少给定训练示例上的最小二乘误差,但这实际上是用噪声来拟合噪声,会带来问题。
例如,在出租车小费模型中,使用十个变量的全回归模型
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



