机器学习之Rademacher复杂度和VC维

最新推荐文章于 2024-12-03 10:45:29 发布

bwqiang

最新推荐文章于 2024-12-03 10:45:29 发布

阅读量5.1k

点赞数 11

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/bwqiang/article/details/106009059

本文介绍了机器学习中衡量假设集复杂度的两种方法：Rademacher复杂度和VC维。Rademacher复杂度通过测量假设集对随机噪声的拟合程度来评估，而VC维则关注假设集能打散的最大样本集大小。通过对这两个概念的探讨，文章阐述了如何使用它们来推导泛化边界，并讨论了它们在计算和理解模型复杂度上的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一节中，我们在用假设集的大小 $H$ 来衡量一个假设集的复杂度。这样做的缺点是，对于具有无限个假设的假设集我们得到了两个不符合直觉的结论：（1）它们的复杂度都是无穷大，但沿轴矩形的学习问题证明具有无限个假设的假设集是PAC可学习的。（2）它们的复杂度都相等，但我们知道，线性假设集的复杂度肯定没有 $n$ 次多项式假设集的复杂度高。因此，我们自然需要寻找新的方法来度量一个假设集的复杂度而不是简单地用假说集合的大小来判断。

本章重点：

使用基于McDiarmid不等式的Rademacher复杂度来度量假设集的复杂度和丰富性。推导基于Rademacher复杂度的泛化边界。但对于某些假设集来说，经验Rademacher复杂度的计算是NP难的。
引入增长函数的概念，使其计算假设集的复杂性不依赖于样本的分布，并将增长函数与Rademacher复杂度联系起来。
计算假设集的增长函数是困难的，随后引入 $V C$ 维的概念，并将增长函数与 $V C$ 维联系起来，推导基于 $V C$ 维的泛化边界。

1、Rademacher复杂度

使用 $H$ 表示假设集， $h$ 就是 $H$ 中的一个假设（从输入空间到输出空间的映射）。对任意损失函数 $L:Y×Y→RL:\mathcal{Y}\times \mathcal{Y}→ \mathbb{R}$ 。对于每个 $\mathcal{X} → \mathcal{Y}$ ，我们可以用函数 $g$ 表示从 $y)∈\mathcal{X}\times\mathcal{Y}$ 到 $L (h (x), y)$ 映射。 $G$ 是 $g$ 的集合，用于表示与 $H$ 有关的损失函数族。

Rademacher复杂度通过测量假设集对随机噪声的拟合程度来表征函数族的丰富性。下面将讲述经验Rademacher复杂度和平均Rademacher复杂度的正式定义。

定义1：经验Rademacher复杂度：

设 $G$ 是一族从 $Z$ 映射到 $[a, b]$ 的函数族， $S = (z_1，…z _m)$ 来自 $z$ 空间中大小为 $m$ 的样本集，其中 $zi∈Zz_i\in Z$ ，则 $G$ 在样本 $S$ 上的经验Rademacher复杂度定义为：

$R^S(G)=Eσ[sup⁡g∈G1m∑i=1mσig(zi)], (3.1)\widehat{\mathfrak{R}}_S(G)=\mathop{\mathbb{E}}\limits_{\sigma}[\sup_{g\in{G}}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)],\;\;\;\;\;\;\;\;(3.1)$

其中， $σ=(σ1,……σm)T\mathbf{σ}=(σ_1,……σ_m)^T$ ， $σ_i$ 是取值为 ${−1 ,+ 1\}$ 独立随机变量，被称为Rademacher变量。

样本 $S=(z_1,.....z_m)=((x_1,y_1),......(x_m,y_m))$ 。
$g(z_i)$ 用来表示用假设 $h$ 来预测 $y_i$ 所产生的误差，即损失函数。

如果 $gS\mathbf{g}_ S$ 表示在样本 $S$ 上的向量： $gS=(g(z1)，…，g(zm))T\mathbf{g}_ S = (g(z_1)，…，g(z _m))^T$ 。则经验Rademacher复杂性可以改写为：

$R^S(G)=Eσ[sup⁡g∈Gσ⋅gSm].\widehat{\mathfrak{R}}_S(G)=\mathop{\mathbb{E}}\limits_{\sigma}[\sup_{g\in{G}}\frac{\sigma\cdot\mathbf{g}_S}{m}].$

内积 $σ⋅gSσ·\mathbf{g} _S$ 度量了 $gS\mathbf{g} _S$ （单个函数在样本集上）与随机噪声 $σ$ 向量的相关性。取上确界 $sup⁡g∈Gσ⋅gSm\sup_{g\in{G}}\frac{\sigma\cdot\mathbf{g} _S}{m}$ 表示函数 $G$ 在样本 $S$ 上与噪声 $σ$ 的相关性。取期望（经验Rademacher复杂度）表示函数族 $G$ 在 $S$ 上与噪声的平均相关性，这也就描述了函数族 $G$ 的丰富度：更丰富、更复杂的函数族 $G$ 可以产生更多的 $gS\mathbf{g}_S$ ，在平均水平上更好的拟合随机噪声。

定义2：Rademacher复杂度：

设 $D$ 是样本 $S$ 的分布。对于任意整数 $m \geq 1$ ， $G$ 的Rademacher复杂度是根据分布 $D$ 下 $m$ 个样本的经验Rademacher复杂性的期望：

$Rm(G)=ES∼Dm[R^S(G)]. (3.2)\mathfrak{R}_m(G)=\mathop{\mathbb{E}}\limits_{S\sim{D^m}}[\widehat{\mathfrak{R}}_S(G)].\;\;\;\;\;\;\;\;(3.2)$

平均Rademacher复杂度移除了对特定样本集的依赖，更加平均地度量了一个函数族的复杂程度（但仍与分布有关）。

在基于Rademacher复杂度推导第一个泛化边界之前，先介绍McDiarmid不等式。

McDiarmid不等式：令 $x_1,...,x_m)∈X_m$ 为独立随机变量的集合，假设存在 $c_1,...,c_m>0$ ，使得 $f : X \to R$ 满足以下条件：
$∣f(x1,...,xi,...,xm)−f(x1,...,xi′,...,xm)∣≤ci,|f(x_1,...,x_i,...,x_m)−f(x_1,...,x_i ^\prime,...,x_m)|≤c_i,$
对所有的 $i∈[1,m]i\in [1,m]$ 以及任意的点 $x1,...,xm,xi′∈Xx_1,...,x_m,x_i ^\prime\in X$ 都成立。令 $f (S)$ 表示 $f(x_1,...,x_m)$ ，那么对所有的 $ε>0\varepsilon>0$ ，下面的不等式成立：
$Pr[f(S)−E[f(S)]≥ε]≤exp⁡(−2ε2∑i=1mci2)Pr[f(S)−E[f(S)]\ge\varepsilon]\le\exp(\frac{−2\varepsilon^2}{\sum_{i=1}^mc_i^2})$
$Pr[f(S)−E[f(S)]≤−ε]≤exp⁡(−2ε2∑i=1mci2)Pr[f(S)−E[f(S)]\le -\varepsilon]\le\exp(\frac{−2\varepsilon^2}{\sum_{i=1}^mc_i^2})$

定理1：

设 $G$ 是一系列从 $Z$ 映射到 $[0, 1]$ 的函数族。对任何 $δ>0\delta > 0$ ， $G$ 中的每一个函数 $g$ ，都至少以 $1−δ1−\delta$ 概率，下述两个式成立：

$(3.3)E[g(z)]≤1m∑i=1mg(zi)+2R^S(G)+3log⁡2δ2m (3.4)\mathbb{E}[g(z)]\le\frac{1}{m}\sum_{i=1}^mg(z_i)+2\mathfrak{R}_m(G)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\;\;\;\;\;\;\;(3.3)\\ \mathbb{E}[g(z)]\le\frac{1}{m}\sum_{i=1}^mg(z_i)+2\widehat\mathfrak{R}_S(G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\;\;\;\;\;\;\;(3.4)$

证明：对于任意在 $Z$ 空间上的样本集 $S = (z_1,…,z_m)$ 和任意函数 $g \in G$ ，用 $E^S[g]\widehat{\mathbb{E}} _S [g]$ 来表示在 $S$ 上的 $g$ 的经验平均值： $E^S[g]=1m∑i=1mg(zi)\widehat{\mathbb{E}} _S [g] = \frac{1}{ m }\sum _{i=1}^{m}g(z_i)$ 。利用McDiarmid不等式，在任意样本 $S$ 上定义函数 $Φ\Phi$ ：
$Φ(S)=sup⁡g∈G(E[g]−E^S[g]) (3.5)\Phi(S)=\sup_{g\in G}(\mathbb{E}[g]-\widehat{\mathbb{E}}_S[g]) \;\;\;\;\;\;\; (3.5)$