机器学习中的提升算法与模型选择
1. 基假设的线性组合
在机器学习中,我们常常会用到基假设的线性组合。这里,我们用 $G_r$ 来表示所有最多有 $r$ 个分段的分段常数分类器的类。可以证明,$G_T \subseteq L(H_{DS1}, T)$,也就是说,$T$ 个决策树桩上的半空间类可以产生所有最多有 $T$ 个分段的分段常数分类器。
例如,对于任意 $g \in G_T$ 且 $\alpha_t = (-1)^t$,若 $x$ 在区间 $(\theta_{t - 1}, \theta_t]$ 内,则 $g(x) = (-1)^t$。函数
[h(x) = \text{sign}\left(\sum_{t = 1}^{T} w_t \text{sign}(x - \theta_{t - 1})\right)]
其中 $w_1 = 0.5$,当 $t > 1$ 时,$w_t = (-1)^t$,这个函数属于 $L(H_{DS1}, T)$ 且等于 $g$。
从这个例子我们可以知道,$L(H_{DS1}, T)$ 可以打散 $\mathbb{R}$ 中任意 $T + 1$ 个实例的集合,所以 $L(H_{DS1}, T)$ 的 VC 维至少为 $T + 1$。这表明参数 $T$ 可以控制偏差 - 复杂度权衡:增大 $T$ 会得到更具表达能力的假设类,但另一方面可能会增加估计误差。
1.1 $L(B, T)$ 的 VC 维
对于任意基类 $B$,$L(B, T)$ 的 VC 维有上界。当 $T$ 和 $VCdim(B)$ 都至少为 3 时,有:
[VCdim(L(B, T)) \leq T(VCdim
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



