Foundations of Machine Learning 2nd——第四章Model Selection（二）

最新推荐文章于 2025-04-30 09:36:22 发布

九二_

最新推荐文章于 2025-04-30 09:36:22 发布

阅读量544

点赞数 1

文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/qq_43631376/article/details/114548733

版权

Foundations of Machine Learning 2nd——第四章Model Selection（二）

交叉验证 Cross Validation(CV)
n折交叉验证
基于正则化的算法
用来替代0-1函数的凸上界损失函数
第四章 Over

交叉验证 Cross Validation(CV)

上节内容请看这里~

交叉验证是另一种用来确定映射集的方法（更具体的可以理解成确定模型超参的方法），在本节我们会介绍交叉验证的具体内容，他的有效性，以及交叉验证和SRM（上一节提到的）两种方法的对比。

交叉验证的步骤

和上一节的一样， $(H_k)_{k\geq1}$ 是一个可数的映射集序列，他们的复杂度是逐渐上升的。设 $S$ 是一个独立同分布的大小为 $m$ 的有标签数据集。首先将 $S$ 分成大小为 $(1-\alpha)m$ 的 $S_1$ 和 $\alpha m$ 的 $S_2$ 两个子集，这里的 $\alpha$ 是一个非常小的数，因此 $S_1$ 的基数是比 $S_2$ 大的多的。然后 $S_1$ 作为训练集， $S_2$ 作为验证集。对于 $k\in\Bbb{N}$ ， $h_{S_1,k}^{ERM}$ 表示使用映射集 $H_k$ （我们可以理解为固定超参的，含有很多待学习参数的模型）在 $S_1$ 上学习到的映射， $h_S^{CV}$ 表示交叉验证返回的映射，它其实是：在验证集 $S_2$ 上表现最好的 $h_{S_1,k}^{ERM}$ :
$h_s^{CV}=\argmin_{h\in\{h_{S_1,k}^{ERM}:k\geq1\}}\hat{R}_{S_2}(h)$
通常在实践中，我们就是根据验证集的性能来调整模型的超参，来找到最优（通常是局部最优）的超参值。

交叉验证有效性的保证（guarantee）

定理 4.3

对于任意 $\alpha>0$ ，和任意 $m\geq1$ ，下面的不等式都是成立的：
$\Bbb{P}[\sup_{k\geq1}|R(h_{S_1,k}^{ERM})-\hat{R}_{S_2}(h_{S_1,k}^{ERM})|>\epsilon+\sqrt{\frac{\log k}{\alpha m}}]\leq4e^{-2\alpha m\epsilon^2}$

（具体证明略，详细推导请看原著）

也就是说， $h_{S_1,k}^{SRM}$ 的generalization error和他在 $S_2$ 上的经验损失距离大概率是很近的，而且 $m$ 值越大，距离越近的概率就越大，也就是说我们可以用 $h_{S_1,k}^{SRM}$ 在 $S_2$ 上的经验损失来近似他的generalization error，这说明了交叉验证的有效性

定理4.4 CV(Cross-validation) VS SRM

对于任意的 $\delta>0$ ，至少 $1-\delta$ 的概率下式成立：
$R(h_S^{CV})-R(h_{S_1}^{SRM})\leq2\sqrt{\frac{\log\max(k(h_S^{CV}),k(h_{S_1}^{SRM}))}{\alpha m}}+2\sqrt{\frac{\log\frac{4}{\delta}}{2\alpha m}}$

这个定理说明对于样本集大小为 $m$ 的CV的结果映射的generalization error和大小为 $(1-\alpha)m$ 的 $S_1$ 上的SRM结果映射十分接近。且我们前面说过 $\alpha$ 十分小，因此也可以认为这个定理保证了CV的结果和SRM的结果是十分类似的。不过有时候可能运气比较倒霉，分出来的 $(1-\alpha)m$ 个样本用SRM学习到的映射跟在 $S$ 上学习到的差距很大，这时候这个定理就没用了，所以为了避免这个情况，稍后会将到n折交叉验证（n-fold cross validation），来解决这一个问题。

n折交叉验证

在实际实验中，可能存在训练集/验证集/测试集划分不当（数据分布差距特别大）使得模型效果不好的情况，尤其是在我们能够得到的有标签数据集数量非常少的时候，出现这种问题的概率更高。所以，n折交叉验证就是用来解决这个问题滴。

n折交叉验证的步骤

令 $\theta$ 表示算法的超参们。对于一组固定的 $\theta$ ，首先我们先随机将大小为 $m$ 的样本集 $S$ 分成 $n$ 个子集，第 $i$ 个子集表示为 $x_{i1},y_{i,1}),...,,,(x_{im_i},y_{im_i}))$ ， $m_i$ 表示第 $i$ 个子集的大小。对任意的 $i\in[n]$ ，算法会在除了第 $i$ 个子集的所有其他子集构成的集合上训练学习，将学习出来的映射 $h_i$ 在第 $i$ 个子集上验证。下图比较形象的表示了n折交叉验证的过程：
在这里插入图片描述超参 $\theta$ 的性能是根据 $h_i$ 们的平均损失来衡量的，称为“交叉验证损失”，用 $\hat{R}_{CV}(\theta)$
$\hat{R}_{CV}(\theta) = \frac{1}{n}\sum_{i=1}^{n}\frac{1}{m_i}\sum_{j=1}^{m_i}L(h_i(x_{ij}),y_{ij})$

通常我们会平均分配 $n$ 个子集，也就是每个子集的大小都是 $(1 - 1 / n) m$ ，那么这个n怎么选择？又是一个要trade-off的问题。

当n过大的时候，说明每个验证集的size都比较小，也就是训练集和原始 $S$ 更相似，这时候交叉验证损失的偏差（bias）就会比较小（毕竟训练集更多），但是因为每个验证集的数量就很小，因此验证集之间的分布差距可能很大，所以交叉验证的方差（variance）会比较大。
当 $n$ 比较小的时候，分出来的训练集的size比 $m$ 小太多了，所以导致bias比较大，variance比较小。

通常 $n$ 经常是5或者10。在模型选择应用交叉验证的完整步骤是，对于所有的有标签数据，先将其分成训练集和测试集，然后在大小为 $m$ 的训练集上做n折交叉验证：先固定一组超参 $\theta_0$ ，计算 $\hat{R}_{CV}(\theta_0)$ ，下次更新 $\theta_1$ 再次计算 $\hat{R}_{CV}(\theta_1)$ ，找到最小的 $\hat{R}_{CV}$ 对应的 $\theta$ 作为固定的超参，然后在整体训练集上训练。测试集是用来验证学习到的模型的性能的。

留一交叉验证leave-one-out cross-validation

当 $n = m$ 时，称为留一交叉验证，因为这时的验证集大小为1，第五章会说到，留一损失是一个算法的平均损失的无偏估计，可以用来导出对一些算法的简单的guarantee。不过通常计算留一损失十分costly，因为要做m次训练。

n折交叉验证用来评估模型性能

除了用来模型选择，n折交叉验证也可以用来评估模型性能。这时，我们已经确定了超参 $\theta$ 的选择，需要做的是模型性能的评估，如果只划分出训练集和测试集，还是有可能出现数据集划分不合理导致结果评估不可靠的情况。n折交叉验证能够比较好的解决这个问题，步骤大概如下：

所有有标签数据被随机分成 $n$ 折，也是做n次训练，不过剩下的子集是作为测试集存在的，这样可以得到所有样本上的n折交叉验证损失（或是其他评价指标的均值），以此评估模型性能。同时我们也可以得到损失的标准差，当标准差过大的时候说明我们模型在这个数据集上无法表现出稳定的性能，可能数据集不合适或者数量有待扩充。

基于正则化的算法

由SRM算法启发，基于正则化的算法也逐渐发展起来。他通常用来解决对于一个非常复杂的映射集 $H$ ，且这个映射集是无数个嵌套映射集 $H_{\gamma}$ 的联合： $∪γ>0Hγ \cup_{\gamma>0}H_\gamma$ 。比如， $H$ 可能是一个高维空间的所有线性映射的集合， $H_\gamma=\{x\rightarrow w\cdot\Phi(x):||w||<\gamma\}$ ， $\Phi(x)$ 是将x映射到高维空间的函数。

对于有标签数据集 $S$ ，当处理的是无数个嵌套映射集的集合 $H$ 的时候，SRM的优化问题可以扩展如下：
$\argmin_{\gamma>0,h\in H_\gamma}\hat{R}_S(h)+R_m(H_\gamma)+\sqrt{\frac{\log\gamma}{m}}$
后面的惩罚项也可以用其他的关于 $\gamma,m$ 的函数 $pen(\gamma,m)$ 替代。其实，通常存在一个映射 $R:H\rightarrow\R$ ，使得对于任意 $\gamma>0$ ，被约束的优化 $\argmin\limits_{\gamma>0,h\in H_\gamma}\hat{R}_S(h)+pen(\gamma,m)$ 可以转换成无约束的优化项：
$\argmin_{h\in H}\hat{R}_S(h)+\gamma R(h)$
这个 $R (h)$ 就是我们常说的正则化项， $\gamma>0$ 是一个超参数，通常称为正则化参数，可以用交叉验证来学习。大部分情况， $R (h)$ 是一个正比于 $∣ ∣ h ∣ ∣$ 的公式。

当 $\gamma$ 越大，对于复杂映射的惩罚力度就会越大。当 $\gamma$ 很小，接近于0的时候，正则化项不起作用，该算法退化为ERM。

当正则化项是 $||h||_p,p\geq1$ ，这是一个关于 $h$ 的凸函数。如果损失函数选的是0-1损失（ $\hat{R}_S=\frac{1}{m}\sum_{i=1}^m\Bbb{1}_{f(x_i)\neq y_i}$ ），该目标函数的第一项就不是一个凸函数，这就使得问题变的很复杂，所以通常实践中，我们会选择0-1函数的凸上界作为损失函数，这样整个目标函数就是一个凸函数，学习起来比SRM简单多了。

用来替代0-1函数的凸上界损失函数

我们前面提到的解决模型选择的方法：ERM,SRM等都是基于ERM的，我们也说过，ERM的求解是NP-hard，因为0-1函数不是一个凸函数。所以通常我们会选择0-1函数的凸上界函数来作为损失函数，简化优化问题。这一章介绍的是对于这样的替代函数在损失方面的有效性保证。

首先明确一下各种符号：
我们考虑的是实值函数 $h:\mathcal{X}\rightarrow\R$ ， $h$ 的符号函数可以作为二分类器 $f_h:\mathcal{X}\rightarrow\{-1,+1\}$ ：
$f_h(x) = \left\{ \begin{aligned} +1, \quad &if\quad h(x)\geq0\\ -1, \quad& if\quad h(x)<0\\ \end{aligned} \right.$
$h$ 在 $(x,y)\in \mathcal{X}\times{+1,-1}$ 上的损失是基于 $f_h$ 的二分类损失定义的：
$1_{f_h(x)\neq y}=1_{yf_h(x)<0}+1_{h(x)=0\land y=-1}\leq1_{yf_h(x)\leq0}$
$R (h)$ 表示 $h$ 的期望损失： $R(h)=\Bbb{E}_{(x,y)\sim D}[1_{f_h(x)\neq y}]$
$\eta(x)=\Bbb{P}[y=+1|x]$
$D_\mathcal{X}$ 表示 $\mathcal{X}$ 的边缘分布。
对于任意 $h$ ：
$\begin{aligned} R(h) & =\Bbb{E}_{(x,y)\sim D_\mathcal{X}}[\eta(x)1_{h(x)<0}+(1-\eta(x))1_{h(x)>0}+(1-\eta(x))1_{h(x)=0}]\\ & = \Bbb{E}_{(x,y)\sim D_\mathcal{X}}[\eta(x)1_{h(x)<0}+(1-\eta(x))1_{h(x)\geq0}]\\ \end{aligned}$

由此可以看出，贝叶斯分类器 $h^*$ 可以定义为：预测 $\eta(x)\geq\frac{1}{2}$ 的 $x$ 的标签为 $1$ 的函数：
$h^*=\eta(x)-\frac{1}{2}$

$R^*=R(h^*)$ 是贝叶斯分类器 $h^*$ 的generalization error

定理 4.5

$h$ 的excess error可以如下表示：
$R(h)-R^*=2\Bbb{E}_{x\sim D_\mathcal{X}}[|h^*(x)|1_{h(x)h^*(x)\leq0}]$
证明略

令 $\Phi:\R\rightarrow\R$ 是一个凸的不减函数，且对于任意 $u\in\R,1_{u\leq0}\leq\Phi(-u)$ 。 $h$ 在 $(x, y)$ 上的基于 $\Phi$ 的损失函数可以定义为 $\Phi(-yh(x))$ ，它的期望损失：
$\begin{aligned} \mathcal{L}_{\Phi}(h)&=\Bbb{E}_{(x,y)\sim D}[\Phi(-yh(x))]\\ &=\Bbb{E}_{x\sim D_\mathcal{X}}[\eta(x)\Phi(-h(x))+(1-\eta(x))\Phi(h(x))] \end{aligned}$

因为对于任意 $u\in\R,1_{u\leq0}\leq\Phi(-u)$ ， $R(h)\leq\mathcal{L}_\Phi(h)$ 。
对于任意 $x\in\mathcal{X}$ ，设 $u\rightarrow L_\Phi(x,u)$ 如下：
$L_{\Phi}(x,u)=\eta(x)\Phi(-u)+(1-\eta(x))\Phi(u)$
这样 $\mathcal{L}_\Phi(h)=\Bbb{E}_{x\sim D_{\mathcal{X}}}[L_\Phi(x,h(x))]$ 。因为 $\Phi(x)$ 是凸函数， $L_\Phi(x,u)$ 是凸函数的线性组合，所以也是凸函数。
设 $h^*_{\Phi}:\mathcal{X}\rightarrow[-\infty,+\infty]$ 为损失函数 $L_\Phi$ 的贝叶斯解，也就是说，对于任意 $x$ , $h_\Phi^*(x)$ 是下列凸优化问题的解：
$\begin{aligned} h^*_\Phi(x)&=\argmin_{u\in[-\infty,+\infty]}L_\Phi(x,u)\\ &=\argmin_{u\in[-\infty,+\infty]}\eta(x)\Phi(-u)+(1-\eta(x))\Phi(u) \end{aligned}$

$h^*_\Phi(x)$ 的损失 $\mathcal{L}_\Phi^*=\Bbb{E}_{(x,y)\sim D}[\Phi(-yh^*_\Phi(x))]$

定理4.6

令 $\Phi$ 表示一个凸的非减函数，并且在0出可导，导数 $\Phi'(0)>0$ 。那么，当且仅当 $h^*(x)>0$ 时 $h^*_\Phi(x)>0$ ，当且仅当 $h^*(x)=0$ 时 $h^*_\Phi(x)=0$ 。也就是说， $\mathcal{L}^*_\Phi=R^*$

说明 $\mathcal{L}_\Phi$ 和 $R$ 的优化目标（贝叶斯解）是一致的。

证明略

定理4.7

令 $\Phi$ 是一个凸的，且非减函数，假设存在 $s\geq1$ 和 $c > 0$ 使得下式对于所有的 $x\in\mathcal{X}$ 成立：
$|h^*(x)|^s=|\eta(x)-\frac{1}{2}|^s\leq c^s[L_{\Phi}(x,0)-L_\Phi(x,h^*_\Phi(x))]$
那么，对于任意映射 $h$ ，excess error都可以被下式限制（bounded）:
$R(h)-R^*\leq2c[\mathcal{L}_\Phi(h)-\mathcal{L}_\Phi^*]^{\frac{1}{s}}$