台大机器学习基石 Lecture 7 - The VC Dimension_错误标签对vcbound的影响-优快云博客

本文链接：https://blog.youkuaiyun.com/github_36324732/article/details/81261002

本文介绍了VC维度的概念及其在机器学习中的应用。通过定义VC维度为最大非断点数，并探讨了感知机的VC维度，解释了其物理含义。文章还讨论了如何选择合适的VC维度以确保模型具有良好的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本次Lecture主要介绍VC Dimension，从non-break point的角度来看之前break point对VC Bound的影响。最终得出结论要选择合适的 $d_{VC}$ 来同时保证较小的 $E_{out}$ 和较低的模型复杂度。

Recap

通过上节课的证明，我们知道了 $B(N,k)\leq N^{k-1}$ 有多项式上界，这是在 $N\geq 2,k\geq 3$ 的条件下的。我们又得到了VC Bound，这是在M无限的前提下的Hoeffding不等式，那么我们将 $B(N,k)\leq N^{k-1}$ 代入VC Bound，这样就只和N与k相关了。

于是现在有几个条件——

$m_H(N)$ 有break point为k（好的H）
N足够大 $\Rightarrow$ 概率上可以有 $E_{out}\approx E_{in}$ （好的D）
算法能找出足够小的 $E_{in}\approx 0$ （好的A）

$\Rightarrow$ 能推断机器可以学习！

Definition of VC Dimension

引入定义VC Dimension为最大的non-break point点，也就是能shatter的input点数。根据之前对break point的定义（不能被shatter的最小点数），VC dimension的值 $d_{VC} = 'minimum \ k' - 1$ 。

此时就能用 $d_{VC}$ 来替代k，得到以下结果——

从而就看到之前四个模型的VC Dimensions：

在这时，VC Bound的问题只和假设集H的 $d_{VC}$ 和数据集D的 $N$ 有关，与学习算法A、输入分布P、目标函数A都没有关系了。

VC Dimension of Perceptrons

回顾一下PLA，在2D Perceptrons的时候

假设训练数据集线性可分，PLA算法就可以收敛，经过T次（足够大）迭代后就能够得到一个g有 $E_{in}=0$
数据集服从某一未知的分布P，存在一未知的目标f，此时的 $d_{VC} = 3$ ，那么当N足够大时，就有 $E_{out}(g) \approx E_{in}(g)$

以上两点融合就能证明机器学习可行。

那么如果在更多维的情况下呢？根据1D时 $d_{VC} = 2$ 和2D时 $d_{VC} = 3$ ，猜测 $d_{vc} \stackrel{?}{=} d+1$ 。以下对此进行证明：

基本思路是 $d_{vc} = d+1\Leftrightarrow \left\{\begin{matrix} d_{vc} \leq d+1\\ d_{vc} \geq d+1 \end{matrix}\right.$ ，只要将两方面都证明即可。

$d_{vc} \geq d+1$ ，只要证明存在有d + 1的输入可以被shatter

构造一个d维的矩阵 $X$ 能够被shatter就行。 $X$ 是d维的，原有d个inputs，每个inputs加上第零个维度的常数项1，得到 $X$ 为d * (d + 1)的矩阵：

很显然，这个 $X$ 矩阵是可逆的。

shatter的本质是，H对 $X$ 中的每一行判断都是正确的，也就是对应着y。从而一定有 $X * w = y$ ，由于 $X$ 可逆，必有 $w=X^{-1} * y$ 。所以对于任意 $y=(y_1,y_2,...,y^{d+1})^T$ 都能找到一个 $w$ 使得 $sign(Xw)=y$ 。