机器学习基石 Lecture7: The VC Dimension
Definition of VC Dimension
上节课所讲的N个样本分成的dichotomies数量,也就是假设函数种类的数量,的上限 m H ( N ) m_{H}(N) mH(N),小于等于上限函数 B ( N , k ) B(N,k) B(N,k)。而 B ( N , k ) B(N,k) B(N,k)可以用一个 k − 1 k-1 k−1维的多项式来限制住。这个 k k k叫做Break Point。即:
因此VC Bound可以进一步的写为:
因此只要满足三点:
- m H ( N ) m_{H}(N) mH(N) 有Break Point k (好的假设空间 H H H)
- N 足够大 ⇒ \Rightarrow ⇒ probably E o u t ≈ E i n E_{out} \approx E_{in} Eout≈Ein (好的数据集 D D D)
- 算法 A A A选择一个错误率很小的假设函数作为 g g g ⇒ \Rightarrow ⇒ probably 能学到东西 (好的算法 A A A)
对于一个假设空间, m H ( N ) = 2 N m_{H}(N) = 2^{N}