机器学习基石 6.4 A Pictorial Proof

本文详细介绍了在样本数量足够大的前提下,如何通过三步推导来证明BAD界上界公式。首先,将外样本误差E_out替换为内样本验证误差E_in';其次,按类型分解假设空间H;最后,应用没有放回的Hoeffding不等式。文章通过图表展示了随机选取数据集D后E_in的分布,并解释了E_in与E_in'相差较大的概率问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. BAD Bound for General H \mathcal{H} H

想要的式子长这样:

这里写图片描述

N N N足够大时,下面的式子成立:

这里写图片描述

证明比较困难。主要分为三个步骤:

Step 1: Replace E o u t E_{out} Eout by E i n ′ E_{in}^{'} Ein

E i n E_{in} Ein的定义:
E i n ( h ) = 1 N ∑ n = 1 N [ h ( x n ) ≠ y n ] E_{in}(h)=\frac{1}{N}\sum_{n=1}^{N}[h(\mathbf{x_{n}})\neq y_{n}] Ein(h)=N1n=1N[h(xn)̸=yn]
所以在给定了 D \mathcal{D} D之后( D \mathcal{D} D中只有有限多个点), E i n E_{in} Ein的取值实际上只有有限个。
然而 E o u t E_{out} Eout的取值却可以是无限个。
我们要想办法把它变成有限多个,这里想到了用用来做verification 的数据集 D ′ \mathcal{D}^{'} D,它大概可以用来代替 E o u t E_{out} Eout
下面的图代表随机取一个 D \mathcal{D} D,其 E i n E_{in} Ein的分布情况,可以看到在已经抽出有一个与 E o u t E_{out} Eout相差很大的 E i n E_{in} Ein的情况下,再抽一个 E i n ′ E_{in}^{'} Ein时, E i n E_{in} Ein E i n ′ E_{in}^{'} Ein相差很大的概率至少是大于 1 2 \frac{1}{2} 21的。

这里写图片描述

于是

这里写图片描述

E o u t E_{out} Eout就被换掉了。

这里写图片描述

Step 2: Decompose H \mathcal{H} H by Kind

这里写图片描述

Step 3: Use Hoeffding without Replacement

这里写图片描述

2. That’s All!

3. Fun Time

这里写图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值