大家好,我是爱酱。上期我们为初学者梳理了主流回归算法的应用场景与基础思路,这一期我们将面向有一定理论基础和实战经验的朋友,系统剖析主流回归算法的核心原理、优化目标、泛化机制与实际局限。如果你想进一步理解回归模型背后的数学本质与工程权衡,这篇文章值得细读与收藏。
注:本文章含大量数学算式、大量干货,建议先收藏再慢慢观看理解。新频道发展不易,你们的每个赞、收藏跟转发都是我继续分享的动力!
一、线性回归(Linear Regression)
1. 模型假设与目标
线性回归假设输出变量 y 与输入特征 x 之间存在线性关系:
其中 β 为待估参数,ϵ 为高斯白噪声(White Noise)。
2. 最小二乘法与解析解
目标是最小化残差平方和:
解析解为:
3. 泛化能力与局限
-
泛化能力受限于特征的线性可分性,且对共线性和异常值高度敏感。
-
假设检验:可通过t检验、F检验等评估参数显著性和模型整体拟合优度。
-
工程应用:适合特征少、关系明确、解释性要求高的场景。
二、岭回归(Ridge Regression)
1. L2正则化(L2 Regularization)与目标函数
为抑制多重共线性与过拟合,在损失函数中引入L2正则项:
控制正则化(Regularization)强度(Intensity)。
2. 解析解与收缩效应
岭回归的解析解:
-
收缩效应:所有参数向0收缩,提升模型稳定性但不做特征选择。
3. 泛化与调参
-
泛化能力显著优于普通线性回归,尤其在高维小样本场景。
-
调参:通过交叉验证选择最优
。
三、Lasso回归(Lasso Regression)
1. L1正则化与稀疏性
Lasso回归在损失函数中引入L1正则项:
-
L1正则促使部分参数精确为0,实现自动特征选择。
2. 优化算法
-
**坐标下降法(Coordinate Descent)**是Lasso的常用高效求解算法。
-
稀疏性:适合高维数据,能显著提升模型可解释性。
3. 局限性
-
对特征高度相关的数据,Lasso可能随机选择其中一部分,丢弃其他有效特征。
-
适合特征数远大于样本数的稀疏建模问题。
四、决策树回归(Decision Tree Regression)
1. 分裂准则与结构
-
递归地选择最佳特征及分裂点(最小化MSE、MAE等),将样本空间划分为若干区间。
-
每个叶节点输出区间内样本均值。
分割准则(最小化残差平方和):
剪枝(复杂度惩罚):
2. 树的深度与泛化
-
树越深,模型越复杂,拟合能力越强但更易过拟合。
-
剪枝(Pruning)、最小样本数、最大深度等参数控制泛化能力。
3. 优缺点
-
优点:可拟合任意复杂的非线性关系,对异常值鲁棒。
-
缺点:预测结果不连续,模型不稳定(对数据扰动敏感)。
五、随机森林回归(Random Forest Regression)
1. Bagging思想与模型结构
-
集成多棵决策树,每棵树在样本和特征上做bootstrap采样。
-
最终预测为所有树预测值的平均。
单棵树的预测:
随机森林整体预测:
2. 泛化机制
-
通过模型集成显著降低方差,抗过拟合能力极强。
-
OOB(Out-of-Bag)样本可用于无偏估计模型泛化性能。
3. 特征重要性
-
随机森林可输出特征重要性排序,辅助特征工程与解释。
4. 局限性
-
模型体积大,推理速度慢于单棵树,解释性略逊。
六、支持向量回归(SVR, Support Vector Regression)
1.
(Epsilon) - 不敏感损失与核技巧
-
SVR的目标是找到一条“宽容带”内误差为0的回归线,超出带宽的点才计入损失。
-
支持核函数(如RBF、Polynomial)实现非线性回归。
受限于:
2. 支持向量与稀疏性
-
只有落在“带宽”外的样本(支持向量)影响模型,模型稀疏,泛化能力强。
3. 局限性
-
参数调优复杂,核函数和超参数选择对效果影响极大。
-
大规模数据下训练和预测效率较低。
七、神经网络回归(Neural Network Regression)
1. 多层感知机与非线性建模
-
神经网络通过多层线性变换与非线性激活,具备强大的非线性拟合能力。
-
典型结构:输入层-隐藏层-输出层,参数通过反向传播(Backpropagation)优化。
反向传播(Backpropagation)示意图。
2. 优化与正则化
-
常用优化器:SGD、Adam等。
-
正则化手段:Dropout、L2/L1正则、Early Stopping等,提升泛化性能。
3. 泛化与可解释性
-
神经网络可逼近任意连续函数(通用逼近定理)。
-
但模型可解释性弱,参数调优与收敛性要求高,需大量数据。
八、模型选择与工程权衡
-
线性回归/岭回归:适合特征少、关系线性、解释性要求强的业务。
-
Lasso回归:特征选择与高维稀疏建模。
-
决策树/随机森林:非线性关系、特征杂乱、对异常值鲁棒。
-
SVR:中小规模高维数据、对异常值敏感场景。
-
神经网络:大数据、复杂非线性关系、自动特征提取需求。
实际工程中,建议结合交叉验证、学习曲线、特征重要性分析等手段,系统评估模型泛化能力与业务适配度。
总结
主流回归算法各有理论基础与工程权衡。理解其优化目标、正则化机制、泛化能力与局限性,能帮助你在复杂业务场景下做出更科学的模型选择与调优。希望本篇能为你的回归建模之路提供坚实理论支撑与实践参考。如需某一算法的详细推导、代码实现或实际案例,欢迎留言探讨!
谢谢你看到这里,你们的每个赞、收藏跟转发都是我继续分享的动力。
我是爱酱,我们下次再见,谢谢收看!