学习原理:简约原则与正则化的深度剖析
1. 最小描述长度(MDL)原理概述
MDL 原理旨在从所有可能的假设中选择最优假设。假设用 $H$ 表示,其描述长度记为 $L(H)$,而 $L(\delta)$ 表示校正误差的描述长度,其中 $\delta = (\delta_1, \ldots, \delta_{\ell})$。MDL 原理规定,我们应选择使 $L(H_{\kappa}) + L(\delta)$ 最小的假设 $\hat{H}$,即:
$\hat{H} = \min_{H_{\kappa} \in H} [L(H_{\kappa}) + L(\delta)]$
在多项式数据拟合问题中,$L(\delta)$ 编码了给定数据 $y$ 与预测值 $\hat{y}$ 之间的误差。高阶多项式虽有助于减小 $L(\delta)$,甚至使其为零,但会增加 $L(H)$。因此,找到拟合优度与模型复杂度之间的平衡至关重要。
为应用 MDL 原理,需明确 $L(H)$ 和 $L(\delta)$ 的表达式。$L(\delta)$ 可在编码理论框架下得到良好解释,假设已知 $Pr(\epsilon = \delta)$,则存在最优校正码,其长度为:
$L(\delta) = -\log Pr(\epsilon = \delta)$
此式对应香农 - 范诺码。
2. MDL 与正则化的联系
2.1 多项式拟合问题
考虑单变量函数的多项式拟合,目标是基于训练集 $L = {(x_1, y_1), \ldots, (x_{\ell}, y_{\ell})}$ 预测函数:
$f(x) = b
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



