模型选择与验证:从理论到实践的全面指南
1. 模型选择的重要性与挑战
在机器学习中,当我们面对一个实际问题时,通常会有多种算法可供选择,而每种算法又可能有多个参数。如何为特定问题选择最佳算法以及如何设置算法参数,这一任务被称为模型选择。
以一维回归函数学习问题为例,我们可以考虑用多项式拟合数据。但对于多项式的次数 (d),我们可能不确定哪个值能为数据集带来最佳结果。低次数的多项式可能无法很好地拟合数据,导致较大的近似误差;而高次数的多项式则可能过拟合,产生较大的估计误差。从拟合不同次数多项式的结果来看,经验风险会随着次数的增加而降低,但这并不意味着高次数多项式就是更好的选择。例如,虽然 10 次多项式的经验风险小于 3 次多项式,但我们的直觉告诉我们 3 次多项式可能更好。这表明仅依靠经验风险进行模型选择是不够的。
2. 基于 SRM 的模型选择
SRM(结构风险最小化)范式是一种有效的模型选择方法。它适用于学习算法依赖于控制偏差 - 复杂度权衡的参数的情况,比如多项式回归中的多项式次数或 AdaBoost 算法中的参数 (T)。
考虑一个可数的假设类序列 (H_1, H_2, H_3, \cdots)。例如,在多项式回归问题中,(H_d) 可以是次数至多为 (d) 的多项式集合;在 AdaBoost 中,(H_d) 可以是 (L(B, d)) 类。假设对于每个 (d),类 (H_d) 具有一致收敛性,其样本复杂度函数形式为:
[m_{UC}^{H_d}(\epsilon, \delta) \leq \frac{g(d) \log(1/\delta)}{\epsilon^2}]
其中 (g : N \to R) 是一
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



