核机器中的正则化学习
1. 正则化概述
正则化在机器学习中是一个关键概念,它与解函数类 $H = {f : X →R}$ 的紧致性密切相关。在处理线性机器时,我们会遇到正则化问题。例如,当样本数量 $\ell$ 与输入维度 $d$ 满足 $d + 1 > \ell$ 时,正规方程会有 $\infty^{d + 1 - \ell}$ 个解,这表明学习问题处于病态。因为线性机器的函数 $f (x) = \hat{w}’ \hat{x}$ 中,$\hat{w}$ 可以取任意大的值,所以该函数不在紧致集内。
为了避免这种情况,我们需要限制权重的值,使其不过大。这一思想在之前讨论简约原则和最大间隔问题时也有体现。简约性和稳定性都要求权重有界,这也是最大间隔问题(MMP)几何鲁棒性原则的结果。
当我们将学习问题表述为简单的逐点约束满足问题时,如果信息不足,可能会导致病态条件,使得解函数类 $H$ 非紧致且有无限个解。为了解决这个问题,一种方法是在紧致集内搜索解,即施加约束 $|f | \leq F$($F > 0$)。但 $F$ 的取值往往是任意的,而采用简约原则,即在环境约束下最小化目标函数 $|f | \leq F$,能为学习提供更合理的框架。
2. 正则化风险
正则化风险的定义与最小描述长度(MDL)原则相关。在给定训练集的情况下,学习可以看作是在训练集导出的软约束下最小化 $|f | k$ 的问题,形式上可表示为:
[f^{\star} = \arg \min {f \in H_k} [E_{emp}(f) + \mu P(f)]]
其中,$E_{emp}(f)$ 是经验风险,$\mu$
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



