【机器学习26】-偏差、方差权衡

SSWDUT

于 2025-04-01 18:51:46 发布

阅读量596

点赞数 13

分类专栏：机器学习探索笔记 | 从理论到实践文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/wangshangshang09/article/details/146905755

版权

机器学习探索笔记 | 从理论到实践专栏收录该内容

34 篇文章

订阅专栏

【机器学习26】-偏差、方差权衡

以下是关于偏差-方差权衡、神经网络优化及正则化应用的系统性解析与解题思路：

1. 偏差-方差权衡（图1）

核心概念

• 简单模型（如线性回归）：
$f_{\mathbf{w},b}(x) = w_1x + b$
• 高偏差：训练误差 $J_{train}$ 和验证误差 $J_{cv}$ 均高（欠拟合）。
• 复杂模型（如高阶多项式）：
$f_{\mathbf{w},b}(x) = \sum_{k=1}^4 w_kx^k + b$
• 高方差： $J_{train}$ 低但 $J_{cv}$ 显著升高（过拟合）。

诊断与解决

观察误差曲线：
• 若 $J_{train}$ 和 $J_{cv}$ 均高 → 增加模型复杂度（如升高多项式次数）。
• 若 $J_{train}$ 低但 $J_{cv}$ 高 → 简化模型或正则化（如降低次数、增大 $\lambda$ ）。
最优复杂度选择：
• 选择 $J_{cv}$ 最低对应的多项式阶数（图1中 $d = 2$ 附近）。

2. 神经网络优化流程（图2）

调试步骤

检查训练集表现：
• 若 $J_{train}$ 高即高方差→ 增大网络规模（增加层数或单元数）。
◦ 原理：神经网络是低偏差模型，容量不足会导致欠拟合。
• 若 $J_{train}$ 低 → 进入下一步。
检查验证集表现：
• 若 $J_{cv}$ 高即高方差→ 收集更多数据或添加正则化。
◦ 原理：数据不足或模型过复杂时需抑制过拟合。

关键结论

• 大型神经网络优先解决偏差，再通过数据/正则化控制方差。
• 硬件支持（如GPU）对大规模网络训练至关重要。

3. 正则化在神经网络中的应用（图3）

正则化模型 vs 非正则化模型

组件	非正则化模型	正则化模型（L2, $\lambda=0.01$ ）
层结构	Dense(25, ReLU) → Dense(15, ReLU) → Sigmoid	每层添加`kernel_regularizer=l2(0.01)`
损失函数	交叉熵	交叉熵 + $\frac{\lambda}{2m}\sum\|\mathbf{w}\|_2^2$
效果	易过拟合	抑制权重过大，提升泛化能力

实现代码示例

from tensorflow.keras import Sequential, Dense
from tensorflow.keras.regularizers import l2

# 正则化模型
model = Sequential([
    Dense(25, activation='relu', kernel_regularizer=l2(0.01)),
    Dense(15, activation='relu', kernel_regularizer=l2(0.01)),
    Dense(1, activation='sigmoid', kernel_regularizer=l2(0.01))
])

4. 综合解题思路

问题类型判断与解决策略

问题类型	判断依据	解决方案
高偏差	$J_{train}$ 和 $J_{cv}$ 均高	增加模型复杂度/特征/减小 $\lambda$
高方差	$J_{train}\ll J_{cv}$	增大 $\lambda$ /正则化/简化模型/增加数据
最优平衡	$J_{cv}$ 最小且与 $J_{train}$ 差距合理	保持当前模型

操作流程

训练基础模型 → 计算 $J_{train}$ 和 $J_{cv}$ 。
诊断问题：
• 神经网络优先扩规模解决偏差，再用正则化/数据解决方差。
• 传统模型通过调整复杂度或 $\lambda$ 平衡偏差-方差。
验证改进：监控 $J_{cv}$ 下降且泛化性提升。

5. 核心公式总结

正则化损失函数：
$J(\mathbf{w},b) = \frac{1}{m}\sum_{i=1}^m \mathcal{L}(f(\mathbf{x}^{(i)}),y^{(i)}) + \frac{\lambda}{2m}\|\mathbf{w}\|_2^2$
偏差-方差决策：
• 高偏差： $\uparrow$ 复杂度， $\downarrow\lambda$
• 高方差： $\downarrow$ 复杂度， $\uparrow\lambda$ 或 $\uparrow$ 数据量