一、正则化理论基础与奥卡姆剃刀哲学
1.1 模型复杂度的辩证关系
奥卡姆剃刀原理指出"相同解释力的模型中应选择最简单的",在机器学习中体现为通过约束模型复杂度提升泛化能力。正则化技术的核心目标是在偏差-方差权衡中寻找最优平衡点,其数学本质可描述为:
minθ[J(θ)+αΩ(θ)]\min_{\theta} \left[ J(\theta) + \alpha \Omega(\theta) \right]θmin[J(θ)+αΩ(θ)]
其中Ω(θ)\Omega(\theta)Ω(θ)为复杂度惩罚项,α\alphaα控制正则化强度。
1.2 过拟合的数学表征
过拟合发生时,模型在训练集误差EtrainE_{train}Etrain与测试集误差EtestE_{test}Etest出现显著差异:
Etest≫EtrainE_{test} \gg E_{train}Etest≫Etrain
正则化通过约束参数空间或网络结构,缩小两者差距。实验表明,在MNIST数据集上,正则化技术平均可降低过拟合率23%-45%。
二、参数范数惩罚:L1/L2正则化深度剖析
2.1 L1正则化(Lasso)的数学本质
目标函数:
Jreg(θ)=J(θ)+α∑i=1n∣θi∣J_{reg}(\theta) = J(\theta) + \alpha \sum_{i=1}^n |\theta_i|Jreg(θ)=J(θ)+αi=1∑n∣θi∣
优化特性:
- 菱形约束域顶点处产生稀疏解,实现特征选择
- 采用坐标下降法优化,迭代公式:
θj(k+1)=Sα/ρj(θj(k)−1ρj∇jJ(θ(k)))\theta_j^{(k+1)} = S_{\alpha/\rho_j}\left( \theta_j^{(k)} - \frac{1}{\rho_j} \nabla_j J(\theta^{(k)}) \right)θj