1、证明如果一个类 H 可以通过多项式时间算法进行恰当的 PAC 学习,那么 ERMH 问题属于 RP 类。特别地,这意味着每当 ERMH 问题是 NP 难问题时(例如,讨论的半空间交集类),除非 NP = RP,否则不存在用于 H 的多项式时间恰当 PAC 学习算法。提示:假设你有一个算法 A,它能在某个类参数 n 以及 1/ϵ 和 1/δ 上的多项式时间内对类 H 进行恰当的 PAC 学习。你的目标是将该算法用作子例程,构建一个在随机多项式时间内解决 ERMH 问题的算法 B。给定一个训练集 S ∈(X × {±1}m) 以及某个在 S 上误差为零的 h ∈H,将 PAC 学习算法应用于 S 上的均匀分布,并运行该算法,使得它以 ≥0.3 的概率找到一个函数 h ∈H,该函数在该均匀分布下的误差小于 ϵ = 1/|S|。证明刚刚描述的算法满足作为 ERMH 的 RP 求解器的要求。
以下是将给定文本内容调整为 Markdown 格式 的版本,内容保持不变:
假设存在算法 $ A $ 能在关于类参数 $ n $、$ 1/\epsilon $ 和 $ 1/\delta $ 的多项式时间内对类 $ \mathcal{H} $ 进行恰当的 PAC 学习。
构建算法 $ B $ 以在随机多项式时间内解决 $ \text{ERM}_\mathcal{H} $ 问题。对于给定训练集 $ S \in (\mathcal{X} \times {\pm1})^m $ 和在 $ S $ 上误差为零的 $ h \in \mathcal{H} $,把算法 $ A $ 应用于 $ S $ 上的均匀分布,运行算法 $ A $ 使其以至少 0.3 的概率找到一个函数 $ h \in \mathcal{H} $,该函数在该均匀分布下的误差小于 $ \epsilon = 1/|S| $。
由于算法 $ A $ 运行时间是多项式的,且能以一定概率找到满足条件的 $ h $,所以算法 $ B $ 满足 RP 求解器的要求,即 $ \text{ERM}_\mathcal{H} $ 问题属于 RP 类。
若 $ \text{ERM}_\mathcal{H} $ 问题是 NP 难的,除非 $ \text{NP} = \text{RP} $,否则不存在多项式时间的恰当 PAC 学习算法来学习 $ \mathcal{H} $。
2、给定任意正整数 m,找出一个标记示例序列 ((x1, y1), …, (xm, ym)) ,其中 xi 属于 R³,yi 属于 {-1, +1},使得在该序列上感知机算法上界等于 m,并且感知机算法必定会产生 m 个错误。
提示:将每个 $ x_i $ 设置为形如 $ (a, b, y_i) $ 的三维向量,其中 $ a^2 + b^2 = R^2 - 1 $。设 $ w^* $ 为向量 $ (0, 0, 1) $。现在,回顾感知机上界(定理 9.1)的证明,找出我们使用不等式 ($ \leq $) 而非等式 ($ = $) 的地方,并找出不等式实际上取等号的情况。
3、在本题中,我们讨论形如L(B, T)的类的VC维。我们已经证明了其上界为O(dT log(dT)),其中d = VCdim(B)。这里我们希望证明一个几乎匹配的下界。然而,并非对所有类B都能做到这一点。1. 注意到对于每个类B和每个数T ≥ 1,有VCdim(B) ≤ VCdim(L(B, T))。找到一个类B,使得对于每个T ≥ 1,都有VCdim(B) = VCdim(L(B, T))。提示:取X为有限集。2. 设Bd是Rd上的决策树桩类。证明log(d) ≤ VCdim(Bd) ≤ 5 + 2log(d)。对于上界,有相关证明方法;对于下界,假设d = 2k。设A是一个k × d矩阵,其列是{±1}k中的所有d个二进制向量。A的行构成Rd中的一组k个向量。证明这组向量能被Rd上的决策树桩打散。3. 设T ≥ 1为任意整数。证明VCdim(L(Bd, T)) ≥ 0.5T log(d)。提示:通过取上一个问题中的矩阵A的行,以及矩阵2A、3A、4A、…、T²A的行,构造一组T²k个实例。证明得到的这组实例能被L(Bd, T)打散。
-
取 $ X $ 为有限集,设 $ B $ 为 $ X $ 上的所有可能分类器构成的类。因为 $ X $ 有限,$ B $ 的 VC 维是固定的,且对于任意 $ T \geq 1 $,$ L(B, T) $ 的 VC 维等于 $ B $ 的 VC 维。
-
上界 :有相关证明方法可证得
$$
\text{VCdim}(B_d) \leq 5 + 2\log(d)
$$
下界 :假设 $ d = 2^k $,构造 $ k \times d $ 矩阵 $ A $,其列是 $ {\pm1}^k $ 中的所有 $ d $ 个二进制向量,$ A $ 的行构成的 $ k $ 个向量能被 $ \mathbb{R}^d $ 上的决策树桩打散,可证得
$$
\log(d) \leq \text{VCdim}(B_d)
$$
- 构造一组 $ T^2k $ 个实例,取矩阵 $ A $ 以及 $ 2A、3A、4A、\dots、T^2A $ 的行,证明这组实例能被 $ L(B_d, T) $ 打散,从而证得
$$
\text{VCdim}(L(B_d, T)) \geq 0.5T \log(d)
$$
4、从有界期望风险到不可知 PAC 学习:设 A 是一个能保证以下条件的算法:如果 m ≥ mH(ϵ),那么对于每个分布 D,有 E S∼Dm [LD(A(S))] ≤ min h∈H LD(h) + ϵ。证明对于每个 δ ∈(0,1),如果 m ≥ mH(ϵ δ),那么至少以 1 - δ 的概率有 LD(A(S)) ≤ minh∈H LD(h) + ϵ。
提示:观察随机变量 $ LD(A(S)) - \min_{h \in H} LD(h) $ 是非负的,并依靠 马尔可夫不等式 <

最低0.47元/天 解锁文章
986

被折叠的 条评论
为什么被折叠?



