这篇文章主要总结 PAC 学习框架以及样本复杂度相关的东西,大致来说就是:要保证以概率 1 − δ 1-\delta 1−δ 使得 generalized error 小于 ϵ \epsilon ϵ 需要多大的样本复杂度,以及时间复杂度才是好的。
问题及约定
符号约定
两个 error 符号
就是我们常说的 train error 与 true error
接下来是定义我们要研究的问题
简单的来说就是 依赖于 m , H , ϵ , δ m,H,\epsilon,\delta m,H,ϵ,δ 这四个东西,我们找到一个 样本复杂度以及计算复杂度的界.或者说找到他们的一些关系
定义
consistent hypothesis:
c o n s i s t e n t ( h , S ) ∣ = h ( x ) = c ( x ) , ∀ ( x , c ( x ) ) ∈ S consistent(h,S) |= h(x)=c(x),\forall (x,c(x))\in S consistent(h,S)∣=h(x)=c(x),∀(x,c(x))∈S
一个 假设称为是 consistent 的,if and only if, ∀ ( x , c ( x ) ) ∈ S \forall (x,c(x))\in S ∀(x,c(x))∈S 都有, h ( x ) = c ( x ) h(x)=c(x) h(x)=c(x)
Version Space:
V S H , S : { h ∈ H ∣ c o n s i s t e n t ( h , S ) } VS_{H,S}:\{h \in H|consistent(h,S)\} VSH,S:{ h∈H∣consistent(h,S)}
ϵ − e x h a u s t e d \epsilon-exhausted ϵ−