深度学习:欠拟合、过拟合、正则化,BN ,L1/L2 范数正则化、bagging集成,dropout

本文详细探讨了深度学习中遇到的欠拟合和过拟合问题,介绍了降低这两种风险的方法,如正则化、数据增强、集成学习等。重点讲解了Batch Normalization(BN)的作用和原理,以及L1和L2范数正则化的异同和它们如何防止过拟合。此外,还讨论了Bagging集成方法和Dropout策略,解释了它们与BN的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://github.com/imhuay/Algorithm_Interview_Notes-Chinese

一、欠拟合、过拟合

欠拟合指模型不能在训练集上获得足够低的训练误差

过拟合指模型的训练误差测试误差(泛化误差)之间差距过大;

反映在评价指标上,就是模型在训练集上表现良好,但是在测试集和新数据上表现一般(泛化能力差);

降低过拟合风险的方法

所有为了减少测试误差的策略统称为正则化方法,这些方法可能会以增大训练误差为代价

数据增强

图像:平移、旋转、缩放

利用生成对抗网络(GAN)生成新数据

NLP:利用机器翻译生成新数据

降低模型复杂度

神经网络:减少网络层、神经元个数

决策树:降低树的深度、剪枝

...

权值约束(添加正则化项)

L1 正则化

L2 正则化

集成学习

神经网络:Dropout

决策树:随机森林、GBDT

提前终止

 

降低欠拟合风险的方法

加入新的特征

交叉特征、多项式特征、...

深度学习:因子分解机、Deep-Crossing、自编码器

增加模型复杂度

线性模型:添加高次项

神经网络:增加网络层数、神经元个数

减小正则化项的系数

添加正则化项是为了限制模型的学习能力,减小正则化项的系数则可以放宽这个限制

模型通常更倾向于更大的权重,更大的权重可以使模型更好的拟合数据

二、正则化

2.1 Batch Normalization(批标准化) 均值为0 方差为1 本质上解决反向传播过程中的梯度问题。

BN 是一种正则化方法(减少泛化误差),主要作用有:

  • 加速网络的训练缓解梯度消失,支持更大的学习率) 激活函数sigmoid 在反向传播过程中,正无穷和负无穷两边的导数都几乎为0,只有中间Y轴导数值比较大,所以经过若干次链式求导,最终 接近0,梯度消失,经过BN 可以是每一层的H 均值为0,标准差为1,也就是数据集中在y轴附近,这样就使得梯度比较大,解决了梯度消失的问题。
  • 防止过拟合
  • 降低了参数初始化的要求。
  • BN 可以缓解每一层数据不稳定的问题,很多层每一层数据都要经过权重计算,如果权重大于1的话,最后的数据可能非常大,为了防止“梯度弥散”。关于梯度弥散,大家都知道一个简单的栗子:0.9^{30}\approx 0.04。在BN中,是通过将activation规范为均值和方差一致的手段使得原本会减小的activation的scale变大。

动机

训练的本质是学习数据分布。如果训练数据与测试数据的分布不同会降低模型的

<think>好的,用户现在想了解集成学习中的正则化方法。我需要结合之前提供的引用内容,特别是引用[1]提到的Bagging集成学习,还有引用[2]中的正则化技术,比如Dropout、L2正则化等。用户之前的问题是关于神经网络的正则化方法,现在转向集成学习中的正则化,可能需要将两者结合起来。 首先,集成学习中的正则化可能包括两种思路:一种是对基学习器本身的正则化,比如在训练每个基学习器时使用L1/L2或者Dropout;另一种是通过集成方法本身的结构来达到正则化效果,比如Bagging中的自助采样减少方差。 引用[1]提到Bagging通过自助采样训练多个基学习器,这可能通过减少方差来防止过拟合,类似于正则化的效果。此外,Dropout在神经网络中被认为是一种隐式的集成方法,可以联系到集成学习的正则化方法。 另外,引用[3]提到几何平均和算术平均的集成预测方法,这可能涉及模型平均的正则化效果。不过用户的问题更偏向于方法,可能需要具体例子,比如随机森林中的特征子集选择,或者梯度提升中的收缩率。 需要区分显式和隐式的正则化技术,显式如对基学习器的参数约束,隐式如Bagging和Boosting中的策略。同时,可能还要提到模型平均、早停法在集成中的应用,以及Stacking中的交叉验证防止过拟合。 还要注意用户之前的问题中提到的Dropout和早停法,是否在集成学习中有应用。例如,快照集成(Snapshot Ensembles)使用循环学习率生成多个模型,可以视为一种集成,同时通过早停法的变体来正则化。 最后,要确保回答结构清晰,分点说明,并参考之前的引用内容,比如引用[1]中的Bagging,引用[2]中的正则化技术,引用[3]中的模型平均方法。</think>### 集成学习中的正则化方法详解 集成学习的正则化技术既包含对基学习器的**显式参数约束**,也包含通过集成策略本身实现的**隐式正则化**。以下是具体方法及其作用机制: --- #### 一、基学习器层面的显式正则化 1. **参数范数惩罚** - **方法**:对每个基学习器(如决策树、神经网络)单独应用L1/L2正则化或权重衰减[^2]。 - **作用**:限制单个模型的复杂度,避免基学习器过拟合训练数据。 - **案例**:随机森林中单棵决策树的剪枝操作可视为对模型复杂度的正则化2. **Dropout与随机深度** - **方法**:在神经网络基学习器中使用Dropout随机丢弃神经元,或随机跳过某些网络层(随机深度)[^2]。 - **作用**:通过强制模型学习冗余特征,增强基学习器的鲁棒性。 - **关联集成**:Dropout本质是训练大量共享参数的子网络,近似隐式集成(如引用[2]所述)。 --- #### 二、集成策略的隐式正则化 1. **Bagging:自助采样与多样性增强** - **核心机制**:通过**自助采样(Bootstrap Sampling)**生成多组训练子集,降低模型对特定数据的敏感性(方差减少)[^1]。 - **正则化效果**: - 样本扰动:每个基学习器仅用约63.2%的原始数据训练,强制模型适应数据分布变化 - 特征扰动:如随机森林中随机选择特征子集($\sqrt{d}$或$\log d$个特征),限制单棵树的信息利用能力 2. **Boosting:逐步修正与收缩率** - **正则化技术**: - **学习率(收缩率)**:通过缩小新基学习器的权重(如梯度提升中的$\nu$参数),减缓过拟合趋势 - **早停法**:根据验证集性能提前终止基学习器叠加过程[^1] - **示例公式**: $$ F_m(x) = F_{m-1}(x) + \nu \cdot h_m(x) \quad (\nu \in (0,1]) $$ 3. **模型平均与几何集成** - **方法**:对多个基学习器的预测结果进行加权平均或几何平均(如引用[3]所述)。 - **数学表达**: $$ \text{几何平均:} \quad \hat{y} = \left( \prod_{i=1}^n f_i(x) \right)^{1/n} $$ - **作用**:通过平滑预测分布抑制异常基学习器的影响,增强泛化性。 --- #### 三、集成框架的附加正则化 1. **Stacking中的交叉验证** - **方法**:使用K折交叉验证生成元特征(Meta-features),防止次级模型过拟合基学习器的训练集预测结果[^2]。 2. **快照集成(Snapshot Ensembles)** - **原理**:在单个神经网络的训练过程中,通过周期性调整学习率保存多个权重快照,形成多样性模型集合[^1]。 - **正则化来源**:学习率循环变化迫使模型探索不同局部最优解,等价于隐式正则化。 --- ### 方法对比与选择建议 | **方法类型** | **典型技术** | **适用场景** | |-------------------|------------------------|---------------------------------| | 基学习器正则化 | L2正则化Dropout | 基模型复杂度高(如深度神经网络) | | 采样扰动 | Bagging、特征子集选择 | 高方差模型(如决策树、SVM) | | 预测融合 | 几何平均、加权平均 | 基学习器预测分布差异大 | --- ### 关键实践要点 1. **深度集成**:对神经网络同时使用DropoutBagging可叠加正则化效果(但计算成本较高) 2. **超参数联动**:调整Bagging的子集采样率与基学习器的正则化强度需协同优化 3. **效率权衡**:快照集成相比独立训练多个模型可节省50%以上计算资源[^1] ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值