基于间隔和拉德马赫复杂度的泛化误差分析
1. 基于间隔的泛化误差分析
1.1 直觉理解
AdaBoost的组合分类器是对大量基分类器进行加权多数投票。这类似于现实世界中的政治选举,即使选民数量众多,通过对一小部分选民(通常约一千人)进行随机抽样调查,也能预测选举结果,前提是选举结果差距较大,即一名候选人领先对手较多。这里的差距就是由间隔来衡量的。
同样,对于一个大型组合分类器,只要整体投票的间隔足够大,就可以通过随机抽样其基分类器来确定整体预测结果。间隔越大,所需抽样的基分类器就越少。如果大多数样本的间隔都很大,那么组合分类器就可以用少量基分类器的组合来近似,从而可以使用适用于小规模分类器的技术。
1.2 形式化处理
假设所有基分类器都属于空间 $H$,为简化起见,假设 $H$ 对取反操作封闭,即若 $h \in H$,则 $-h \in H$。定义 $H$ 的凸包 $co(H)$ 为:
[
co(H) = \left{ f : x \mapsto \sum_{t=1}^{T} a_t h_t(x) \mid a_1, \ldots, a_T \geq 0; \sum_{t=1}^{T} a_t = 1; h_1, \ldots, h_T \in H; T \geq 1 \right}
]
设 $D$ 是所有样本生成的真实分布,$S = \langle (x_1, y_1), \ldots, (x_m, y_m) \rangle$ 是训练集。用 $Pr_D[\cdot]$ 或 $E_D[\cdot]$ 表示关于从分布 $D$ 中随机选取的样本 $(x, y)$ 的概率或期望,用 $Pr_S[\cdo
超级会员免费看
订阅专栏 解锁全文

5311

被折叠的 条评论
为什么被折叠?



