17、AdaBoost:损失最小化、正则化与数据受限学习应用

AdaBoost:损失最小化、正则化与数据受限学习应用

1. AdaBoost输出转换为条件概率

AdaBoost使用指数损失函数,其损失函数为 $\ell(z) = e^{-z}$。通过将其代入公式,可以得到将AdaBoost的输出 $F(x) = \sum_{t=1}^{T} \alpha_t h_t(x)$ 转换为条件概率的公式:
$\pi(x) = \frac{1}{1 + e^{-2F(x)}}$
这个转换与逻辑回归中使用的转换非常相似。不过,这种方法基于两个可能有问题的假设:
- 假设公式中的经验损失是所有感兴趣函数 $F$ 的真实风险的合理估计,但对于无界损失函数(如逻辑损失和指数损失),这可能不成立。
- 假设逻辑回归或AdaBoost计算的函数 $F$ 是所有无约束函数 $F$ 中的最小值,但实际上这两种算法计算的 $F$ 是基函数或弱分类器的线性组合。

在实际数据应用中,以人口普查数据集为例,训练后使用上述公式得到每个测试样本为正例(收入超过50,000美元)的概率估计 $\pi(x)$。通过绘制校准曲线可以直观地看到概率估计的准确性。当训练集较大时,概率估计较为准确;但当训练集较小时,由于上述假设可能不成立,性能可能会显著下降。

2. 正则化
2.1 避免过拟合

在学习中,避免过拟合至关重要,尤其是在估计条件概率时。分类只需要预测样本为正例的概率是大于还是小于为负例的概率,而估计条件概率需要对单个概率进行数值估计,因此对学习算法的要求更高。

AdaBoost在某些情况下可以有效估计概率,但在训练集较小或数据噪声较大时,性能可能会变差。例如,在一个人工生

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值