统计学习中的VC维度与Rademacher复杂度解析
在统计学习领域,准确衡量假设集的复杂度对于理解和设计学习算法至关重要。本文将深入探讨两种衡量复杂度的方法:VC维度和Rademacher复杂度。
1. 增长函数与复杂度衡量
增长函数是一种纯粹的组合方法,用于衡量假设集的复杂度,也被称为假设集的容量、丰富度、表达能力或灵活性。然而,增长函数的计算并不容易,因为根据其定义,需要对所有属于假设集$H$的$h$计算$G_H(n)$。
2. VC维度
VC维度,即Vapnik - Chervonenkis维度,由Vladimir N. Vapnik和Alexey Chervonenkis于1971年在论文中提出。它是VC理论的核心内容,该理论从统计角度解释学习过程,并催生了支持向量机(SVM)。
为了便于定义假设集$H$的VC维度,引入了线性二分划分的概念。对于一个包含$n$个样本的数据集$D \subseteq X$和输出空间$Y = {0, 1}^n$,对其进行线性二分划分就是将其打散的方式。
如果假设集$H$可以对数据集$D$进行所有可能的线性二分类,那么就称$D$被$H$线性打散。显然,对于线性二分划分,$|(h (x_1), h (x_2), \ldots, h (x_n))| \leq 2^n$,因此$G_H(n) = 2^n$。
VC维度的定义如下:假设集$H$的VC维度,记为$VCdim(H)$,是增长函数中能被假设集$H$打散的$n$的最大值,即:
$VCdim(H) = \max {n | G_H(n) = 2^n}$
这意味着,当且仅当增长函数$G_H
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



