本章延续第6章的内容:
http://blog.youkuaiyun.com/u010366427/article/details/50985677
7.1 Definition of VC Dimension
本节给之前的break point一个正式的名字。设假设集H的break point为
k
,则VC Dimension为
当
dvc
有限时,可以认为
Eout≈Ein
,即存在泛化能力,并且与以下因素无关:
(1)与从
H
获取模型的演算法无关
(2)与输入数据的分布无关
(3)与目标函数
7.2 VC Dimension of Perceptrons
7.2.1 感知机的学习过程
首先在线性可分的数据集中,经过一个演算法使得
Ein=0
,然后在假定所有数据同分布、VC维有限的情况下,
P[|Ein(g)−Eout(g)|>ϵ]
会小于一个上限,意味着在足够多的数据下
Eout≈Ein
,由
Eout≈0
。
7.2.2 感知机的VC维
证明n维感知机的VC维是
n+1
:
(1)
n
维感知机能shatter某一
n
维感知机的权重向量
(2)
由于
xn+2=x1+⋯+xn+1
因此
wTxn+2=wTx1+⋯+wTxn+1
,可知当
y1,…,yn+1
给定时,
yn+2
被锁定,故无法shatter。
7.3 Physical Intuition of VC Dimension
VC维在物理上大致但不总是代表着
H
的自由度,即能自由决定的变量个数。自由度越高,意味着H能shatter更多的样本,故代表着H的强度,同时在高自由度下却很难使得
7.4 Interpreting VC Dimension
用
dvc
将原有的6.4节的公式替换,我们可以得出
Eout
的上界,公式如下:
我们令该公式带根号的后半部分为 Ω ,可以看到,当
另外,在代入VC维后我们得到公式:
根据此公式在已知其他变量的情况下可以求出未知的变量。据此,我们可以得出理论上在训练算法时应使用10000倍于VC维的数据量,但实际上由于该公式经过了多次严格约束,故而只需要10倍于VC维的数据量即可。