第五讲：正则化与模型选择（Regularization and model selection）

最新推荐文章于 2024-10-01 06:30:00 发布

xyk_hust

最新推荐文章于 2024-10-01 06:30:00 发布

阅读量3.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习理论机器学习理论文章标签：正则化与模型选择机器学习 CS229 Regularization and model selection 人工只能算法

本文链接：https://blog.youkuaiyun.com/xyk_hust/article/details/85877428

本文介绍了在机器学习中如何选择合适的模型，包括交叉验证方法，如保留交叉验证、k-折交叉验证和弃一法交叉验证，以及特征选择的重要性。特征选择可以通过向前搜索等启发式方法降低过拟合风险。此外，文章还探讨了贝叶斯统计和正则化在防止过拟合中的作用，强调了最大后验估计在参数估计中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

设想一个机器学习的问题，我们要从一系列不同的模型中进行挑选。例如，我们可能是用一个多项式回归模型 (polynomial regression model) $h_\theta (x)=g(\theta_0+\theta_1x+\theta_2x^2+\cdots+\theta_kx^k)$ 想要判定这里的多项式次数 $k$ 应该是多少，0, 1, …, 或者10。那么我们怎么才能自动选择一个能够在偏差 (bias)/方差(variance)之间进行权衡的模型呢? ¹

或者换一个说法，假如我们希望能够自动选出来一个带宽参数 (bandwidth parameter) $\tau$ 来用于局部加权回归(locally weighted regression，所谓为 LWR，参考 note1的第2节)，或者要自动选出一个参数 C 用于拉格朗日正则化的支持向量机算法(l1-regularized SVM)。怎么来实现呢?

为了具体一些，咱们这一系列讲义中都假设备选集合的模型个数有限 ${M_1,\cdots,M_d}$ 。例如，在我们上面刚刚随便举的本章第一个例子中， $M_i$ 就是一个 i次多项式拟合模型(i-th order polynomial regression model)。(其实把 M 扩展到无穷集合也不难的。²)换个说法就是，如果我们要从支持向量机算法 (SVM)、神经网络算法(neural network)、逻辑回归算法(logistic regression)当中三选一，那么这里的 M 就应该都包含了这些模型了。

1 交叉验证（Cross Validation）

假如我们得到了一个训练集 S。我们已经了解了经验风险最小化(empirical risk minimization，缩写为 ERM)，那么接下来就要通过使用 ERM 来进行模型选择来推导出一种新的算法:

对训练集 $S$ 中的每一个模型 (model) $M_i$ 进行训练，得到某假设类 (hypothesis) $h_i$
从这些假设中选取训练误差最小的假设 (hypothesis)

上面这个算法是行不通的。比如考虑要选择多项式的阶(最高次项的次数)的情况。多项式的阶越高，对训练集 S 的拟合程度就越好，训练误差自然也就更小。然而，这个方法选出来的总是那种波动非常强 (high-variance) 的高次多项式模型 (high-degree polynomial model) ，这种情况我们之前就讲过了，通常都是很差的选择。

下面这个算法就更好一些。这个方法叫保留交叉验证 (hold-out cross validation)，也叫简单交叉验证 (simple cross validation)，步骤如下：

随机拆分训练集 $S$ 成 $S_{train}$ (例如，可以选择整体数据中的 70% 用于训练) 和 $S_{cv}$ (训练集中剩余的 30%用于验证)。这里的 $S_{cv}$ 就叫做保留交叉验证集(hold-out cross validation set)。
只对集合 $S_{train}$ 中的每一个模型 $M_i$ 进行训练，然后得到假设类(hypothesis) hi。
筛选并输出对保留交叉验证集有最小误差 $\hat\epsilon_{S_{cv}}(h_i)$ 的假设hi 。(回忆一下，这里的 $\hat\epsilon_{S_{cv}}(h_i)$ 表示的是假设 $h$ 在保留交叉验证集 $S_{cv}$ 中的样本的经验误差(empirical error)。)

这样通过在一部分未进行训练的样本集合 $S_{cv}$ 上进行测试，我们对每个假设 $h_i$ 的真实泛化误差 (generalization error) 就能得到一个比上一个方法更好的估计，然后就能选择出来一个有最小估计泛化误差 (smallest estimated generalization error) 的假设了。通常可以选择 1/4 到 1/3 的数据样本用来作为保留交叉验证集(hold out cross validation set)，30% 是一个很典型的选择。