33、线性与逻辑回归：从参数拟合到分类应用

stem5

于 2025-11-02 15:02:43 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学的艺术与实践文章标签：梯度下降随机梯度下降岭回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/stem5/article/details/154983912

数据科学的艺术与实践专栏收录该内容

49 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

线性与逻辑回归：从参数拟合到分类应用

1. 梯度下降与随机梯度下降

梯度下降搜索在非凸优化中仍然实用，不过它无法保证找到全局最优解。对于非凸表面，梯度下降搜索只能找到局部最小值。为了尽可能接近全局最优，我们应该从不同的初始化点多次开始搜索，然后选取找到的最佳局部最小值作为解决方案。

随机梯度下降是一种基于小批量训练点采样的优化方法。传统的梯度下降在计算每个维度的最佳变化方向和速率时，需要遍历所有训练点，这在处理大规模数据集时计算成本极高。例如，在一个庞大的出租车数据集上进行线性回归，仅仅为了确定向目标前进一步的最佳方向，就需要进行8000万次平方差计算。

随机梯度下降通过随机选取一小批训练点来估计当前位置的导数，以此近似梯度。使用的批量越小，评估速度越快，但估计的方向准确性可能越低。为了提高效率，我们可以先随机打乱训练数据的顺序，然后按顺序构建批次，确保所有训练实例最终都能参与搜索，并且在优化过程中可能多次参与。

2. 正则化简化模型

线性回归会尽力为任何数据集找到最佳的线性拟合，但这种“最佳”拟合可能并非我们真正需要的。许多可能的特征与目标值可能不相关，没有实际的预测能力，回归算法却可能利用这些特征来减少训练数据的最小平方误差，这会导致过拟合问题。

例如，在出租车小费模型中，使用十个变量的完整回归模型的均方误差为1.5448，而仅使用车费这一变量的单变量回归模型的误差为1.5487，两者差异不大，但单变量模型显然更简单，符合奥卡姆剃刀原则。

此外，强相关特征会给模型带来歧义，增加模型的复杂性和解释难度。因此，我们需要通过正则化来改变目标函数，以选择更简单有效的模型。

2.1

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。