AdaBoost:损失最小化、正则化与数据受限学习应用
1. AdaBoost输出转换为条件概率
AdaBoost使用指数损失函数,其损失函数为 $\ell(z) = e^{-z}$。通过将其代入公式,可以得到将AdaBoost的输出 $F(x) = \sum_{t=1}^{T} \alpha_t h_t(x)$ 转换为条件概率的公式:
$\pi(x) = \frac{1}{1 + e^{-2F(x)}}$
这个转换与逻辑回归中使用的转换非常相似。不过,这种方法基于两个可能有问题的假设:
- 假设公式中的经验损失是所有感兴趣函数 $F$ 的真实风险的合理估计,但对于无界损失函数(如逻辑损失和指数损失),这可能不成立。
- 假设逻辑回归或AdaBoost计算的函数 $F$ 是所有无约束函数 $F$ 中的最小值,但实际上这两种算法计算的 $F$ 是基函数或弱分类器的线性组合。
在实际数据应用中,以人口普查数据集为例,训练后使用上述公式得到每个测试样本为正例(收入超过50,000美元)的概率估计 $\pi(x)$。通过绘制校准曲线可以直观地看到概率估计的准确性。当训练集较大时,概率估计较为准确;但当训练集较小时,由于上述假设可能不成立,性能可能会显著下降。
2. 正则化
2.1 避免过拟合
在学习中,避免过拟合至关重要,尤其是在估计条件概率时。分类只需要预测样本为正例的概率是大于还是小于为负例的概率,而估计条件概率需要对单个概率进行数值估计,因此对学习算法的要求更高。
AdaBoost在某些情况下可以有效估计概率,但在训练集较小或数据噪声较大时,性能可能会变差。例如,在一个人工生
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



