15、机器学习中的提升算法与模型选择

机器学习中的提升算法与模型选择

1. 基假设的线性组合

在机器学习中,我们常常会用到基假设的线性组合。这里,我们用 $G_r$ 来表示所有最多有 $r$ 个分段的分段常数分类器的类。可以证明,$G_T \subseteq L(H_{DS1}, T)$,也就是说,$T$ 个决策树桩上的半空间类可以产生所有最多有 $T$ 个分段的分段常数分类器。

例如,对于任意 $g \in G_T$ 且 $\alpha_t = (-1)^t$,若 $x$ 在区间 $(\theta_{t - 1}, \theta_t]$ 内,则 $g(x) = (-1)^t$。函数
[h(x) = \text{sign}\left(\sum_{t = 1}^{T} w_t \text{sign}(x - \theta_{t - 1})\right)]
其中 $w_1 = 0.5$,当 $t > 1$ 时,$w_t = (-1)^t$,这个函数属于 $L(H_{DS1}, T)$ 且等于 $g$。

从这个例子我们可以知道,$L(H_{DS1}, T)$ 可以打散 $\mathbb{R}$ 中任意 $T + 1$ 个实例的集合,所以 $L(H_{DS1}, T)$ 的 VC 维至少为 $T + 1$。这表明参数 $T$ 可以控制偏差 - 复杂度权衡:增大 $T$ 会得到更具表达能力的假设类,但另一方面可能会增加估计误差。

1.1 $L(B, T)$ 的 VC 维

对于任意基类 $B$,$L(B, T)$ 的 VC 维有上界。当 $T$ 和 $VCdim(B)$ 都至少为 3 时,有:
[VCdim(L(B, T)) \leq T(VCdim

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值