【漫话机器学习系列】216.应对高方差（过拟合）的策略详解（Strategies When You Have High Variance）-优快云博客

本文链接：https://blog.youkuaiyun.com/IT_ORACLE/article/details/147386781

应对高方差（过拟合）的策略详解：机器学习中的常见方法

在机器学习的建模过程中，我们常常会面对一种令人头疼的问题——过拟合（Overfitting）。过拟合的本质是模型对训练数据“记得太多”，导致在新数据上表现不佳，也就是所谓的高方差问题（High Variance）。

那么，如何有效应对这一问题呢？本文将基于 Chris Albon 总结的思维导图，深入探讨几种常见且有效的技术手段。

在监督学习中，一个模型若在训练集上表现良好，却在验证集或测试集上表现较差，我们就称其为高方差模型。其特点包括：

Chris Albon 总结了四种在模型训练中应对过拟合的方法：

核心思想：限制模型权重的大小，从而抑制其复杂度，防止过度拟合训练数据。

这通常通过引入正则化项实现：

常见实现方式：

# 以sklearn为例
from sklearn.linear_model import Ridge
model = Ridge(alpha=0.5)

在神经网络中，也常见如下方式：

# TensorFlow/Keras
Dense(units=64, kernel_regularizer=l2(0.01))

Dropout 是一种正则化技术，在每次前向传播时随机“丢弃”一部分神经元，防止网络对部分路径过度依赖。

from keras.layers import Dropout
model.add(Dropout(0.5))  # 50% 的神经元在训练时被暂时禁用

Bagging 是一种集成学习策略，通过训练多个基学习器并对它们的预测进行平均或投票来降低模型方差。

常见的 bagging 模型：

from sklearn.ensemble import BaggingClassifier
model = BaggingClassifier(base_estimator=DecisionTreeClassifier(), n_estimators=10)

当特征维度过高时，模型很容易陷入“维度灾难”，导致过拟合。常用的降维方法包括：

PCA 示例：

from sklearn.decomposition import PCA
pca = PCA(n_components=20)
X_new = pca.fit_transform(X)

并非所有特征都是有意义的。冗余或噪声特征会增加模型学习的难度。通过特征选择，我们可以保留对模型有用的信息，同时减少过拟合的风险。

常见方法：

from sklearn.feature_selection import SelectKBest, f_classif
X_new = SelectKBest(f_classif, k=10).fit_transform(X, y)

除了上面列出的主要策略外，Chris Albon 在图中还补充了一些常见手段：

数据越多，模型就越不容易对特定样本过度拟合，从而提升泛化能力。

正则化能够在损失函数中增加“惩罚项”，使模型趋向更简单、更稳健。

Loss = 原始损失 + λ × 正则项

方法	是否适用于深度学习	是否适用于传统模型	特点
权重衰减	✅	✅	控制模型复杂度
Dropout	✅	❌	神经网络专属，防止 co-adaptation
Bagging	✅（部分模型）	✅	集成多个模型减少方差
降维	✅	✅	简化模型输入，消除噪声
特征选择	✅	✅	仅保留有用特征
增加数据量	✅	✅	提高泛化能力，从根本缓解过拟合