正则化技术:提升模型泛化能力的综合策略
在机器学习中,模型在训练数据和测试数据上的表现往往存在显著差距。这种差距可能源于模型对训练数据的过度拟合,即模型捕捉到了训练数据中的统计特性,但这些特性并不能代表输入到输出的真实映射;或者模型在没有训练样本的区域缺乏约束,导致预测效果不佳。为了减少这种泛化差距,我们可以采用正则化技术。
1. 显式正则化
假设我们使用输入/输出对的训练集 ${x_i, y_i}$ 来拟合一个带有参数 $\phi$ 的模型 $f[x, \phi]$。我们的目标是找到损失函数 $L[\phi]$ 的最小值:
$\hat{\phi} = \arg\min_{\phi} \left[ L[\phi] \right] = \arg\min_{\phi} \left[ \sum_{i=1}^{I} \ell_i[x_i, y_i] \right]$
其中,$\ell_i[x_i, y_i]$ 衡量了网络预测 $f[x_i, \phi]$ 与每个训练对的输出目标 $y_i$ 之间的不匹配程度。为了使这个最小化过程倾向于某些特定的解,我们可以添加一个额外的项:
$\hat{\phi} = \arg\min_{\phi} \left[ \sum_{i=1}^{I} \ell_i[x_i, y_i] + \lambda \cdot g[\phi] \right]$
这里,$g[\phi]$ 是一个函数,当参数不太理想时返回一个较大的标量值。$\lambda$ 是一个正标量,用于控制原始损失函数和正则化项的相对贡献。正则化损失函数的最小值通常与原始损失函数的最小值不同,因此训练过程会收敛到不同的参数值。
超级会员免费看
订阅专栏 解锁全文
70

被折叠的 条评论
为什么被折叠?



