线性与逻辑回归:从参数拟合到分类应用
1. 梯度下降与随机梯度下降
梯度下降搜索在非凸优化中仍然实用,不过它无法保证找到全局最优解。对于非凸表面,梯度下降搜索只能找到局部最小值。为了尽可能接近全局最优,我们应该从不同的初始化点多次开始搜索,然后选取找到的最佳局部最小值作为解决方案。
随机梯度下降是一种基于小批量训练点采样的优化方法。传统的梯度下降在计算每个维度的最佳变化方向和速率时,需要遍历所有训练点,这在处理大规模数据集时计算成本极高。例如,在一个庞大的出租车数据集上进行线性回归,仅仅为了确定向目标前进一步的最佳方向,就需要进行8000万次平方差计算。
随机梯度下降通过随机选取一小批训练点来估计当前位置的导数,以此近似梯度。使用的批量越小,评估速度越快,但估计的方向准确性可能越低。为了提高效率,我们可以先随机打乱训练数据的顺序,然后按顺序构建批次,确保所有训练实例最终都能参与搜索,并且在优化过程中可能多次参与。
2. 正则化简化模型
线性回归会尽力为任何数据集找到最佳的线性拟合,但这种“最佳”拟合可能并非我们真正需要的。许多可能的特征与目标值可能不相关,没有实际的预测能力,回归算法却可能利用这些特征来减少训练数据的最小平方误差,这会导致过拟合问题。
例如,在出租车小费模型中,使用十个变量的完整回归模型的均方误差为1.5448,而仅使用车费这一变量的单变量回归模型的误差为1.5487,两者差异不大,但单变量模型显然更简单,符合奥卡姆剃刀原则。
此外,强相关特征会给模型带来歧义,增加模型的复杂性和解释难度。因此,我们需要通过正则化来改变目标函数,以选择更简单有效的模型。
超级会员免费看
订阅专栏 解锁全文
1329

被折叠的 条评论
为什么被折叠?



