过拟合问题——正则化方法

      看了很多资料,本身想放一个正则化的概念的,实在不敢放,怕吓跑一堆人,所以,将就吧。

      首先,我们知道正则化(Regularization)是解决过拟合问题的,简单来说,过拟合(也叫高方差)就是训练样本效果比较好,但是在测试集上的效果就比较差了,官方一点的话就是模型的泛化能力太差。

      泛化能力:一个假设模型能够应用到新样本的能力。

       解决过拟合我们可以采用

     (1)丢弃一些不能帮助我们正确预测的特征,可以手工保留,也可以采用算法(例PCA)

     (2)正则化处理。保留所有的特征,但是减少参数的大小。


      正则化的方式有很多,常见的有数据增强、L1正则化,L2正则化,早停,Dropout等。

      正则化代价函数 =经验代价函数 +正则化参数 *正则化项

      其中,经验损失函数就是我们所说的损失函数,最小化误差让模型更好拟合训练集


      范数的概念:

       

 从概率角度进行分析,很多范数约束相当于对参数添加先验分布,其中L2范数相当于参数服从高斯先验分布,L1范数相当于拉普拉斯分布。从贝叶斯的角度来分析, 正则化是为模型参数估计增加一个先验知识,先验知识会引导损失函数最小值过程朝着约束方向迭代。

 相关资料表示:

 L0和L1可以解决稀疏问题

 L0 问题是NP组合难问题,对较大规模数据无法直接求解;

 存在两种直接求解L0问题的算法:

(1)贪婪算法

(2)门限算法

 问题:

(1)贪婪算法时间代价过高,无法保证收敛到全局最优

(2)门限算法时间代价低,但对数据噪声十分敏感。解不具有连续性 ,无法保证全局最优解。

  L0应用场景:压缩感知、稀疏编码

  L0过渡到L1:从一个组合优化问题放松 到凸优化问题来解,L1范数是L0范数的最优凸近似

  实线的椭圆代表示没有正则化目标的等值线,虚线圆圈表示L1正则化的等值线

  里边涉及一堆数学推理,我简化来说,L1正则化可以产生稀疏矩阵(去掉没用的特征,将权重置为0),有利于特征选择。

  扩充:参考https://wenku.baidu.com/view/00613bc4f78a6529657d536c.html?from=search

  


  L2(Tikhonov正则) 权重衰减

  目标是通过向目标函数添加一个正则项,使权重更加接近原点。

  实线的椭圆代表示没有正则化目标的等值线,虚线圆圈表示L2正则化的等值线

  


  在岭回归中,我们主要解决的问题就是特征数大于样本数的情况,也是奇异矩阵问题。

  奇异矩阵:若存在X的列间存在完全的线性依赖,即它的某一或某些列元素正好是另一或另一列元素的线性函数,这称为共线性   或多重共线性。X的共线性必然导致的列间和行间存在共性,并使得奇异,即行列式的值为0,。则无法求解矩阵的逆。

  在回归分析中,存在着近似于但不同于奇异矩阵的情况,即行列式的值近似于0,此类矩阵通常称为病态矩阵或者近奇异矩阵。   L2范数有助于计算病态问题。

  

















### 不适定问题正则化方法及其应用场景 #### 1. 不适定问题概述 不适定问题是指那些不满足Hadamard提出的三个条件之一的问题:解的存在性、唯一性和稳定性。这类问题在实际应用中广泛存在,尤其是在物理、工程等领域中的反问题中尤为突出[^1]。 #### 2. 正则化方法简介 针对不适定问题的特点,正则化方法通过引入额外的信息来稳定解的过程并改善其性质。具体来说,正则化方法旨在解决由测量误差或其他不确定性引起的不稳定解。常见的正则化技术包括Tikhonov正则化、截断奇异值分解(TSVD)、迭代正则化等。 - **Tikhonov正则化**是最常用的线性正则化形式之一,通过对目标函数增加一个二次惩罚项来抑制过度拟合。 - **截断奇异值分解(TSVD)**则是另一种有效的非迭代方法,适用于某些特定类型的矩阵方程求解场景下使用。 - **迭代正则化**如Landweber迭代法则提供了一种逐步逼近真实解的方式,并允许动态调整步长以达到更好的收敛效果。 这些不同的正则化策略可以根据具体的数学模型以及所处理的数据特性灵活选用。 #### 3. 应用场景举例 在多个学科领域内都可以找到不适定问题的身影: - **医学成像**:计算机断层扫描(CT)重建就是一个典型的例子。由于X射线穿过人体后的衰减情况复杂多变,使得直接从投影数据恢复原始图像变得极其困难;此时采用合适的正则化手段可以帮助获得更清晰准确的结果[^4]。 - **地球物理学勘探**:地震波传播模拟同样面临着类似的挑战——即如何依据有限数量的地表观测点推测地下介质结构分布特征?借助于先进的正则化算法可以有效缓解这一难题带来的影响。 - **金融风险管理**:当试图预测股票价格走势或评估信用违约风险时也会遇到类似的情况,这里所说的“输入”往往是历史交易记录或者其他宏观经济指标,而期望得到的是未来某个时刻的状态描述。因此合理运用正则化工具对于提高预测准确性至关重要。 #### 4. 数值计算与算法实现 考虑到实际操作层面的需求,开发高效的数值计算方案显得尤为重要。MATLAB作为一种强大的编程环境提供了丰富的内置功能支持上述各类正则化的实施过程。下面是一个简单的Python代码片段展示了利用scikit-learn库执行岭回归(一种特殊形式的Tikhonov正则化)的例子: ```python from sklearn.linear_model import Ridge import numpy as np # 假设 X 是训练集样本特征矩阵, y 是对应的标签向量 ridge = Ridge(alpha=0.5).fit(X, y) print(f"Coefficients: {ridge.coef_}") ``` 此段代码实现了带有一个超参数`alpha`(对应于正则化强度)`Ridge`对象的学习流程,并最终输出了估计出来的权重系数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

樱缘之梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值