37、基于信息准则的平滑提升算法:GiniBoost的原理与应用

基于信息准则的平滑提升算法:GiniBoost的原理与应用

1. 引言

在当今数字化时代,随着计算机和互联网的飞速发展,我们能够获取到海量的数据。在知识发现和机器学习任务中,这些数据的规模可能达到数百GB。因此,让知识发现和机器学习算法具备可扩展性变得至关重要。抽样是处理大数据的有效技术之一,在抽样技术及其在数据挖掘任务(如决策树学习、支持向量机和提升算法)中的应用方面,已经取得了许多成果。

提升算法是机器学习算法中一种简单而高效的学习方法。其基本思想是针对数据的不同分布学习多个略有准确性的弱假设,然后将它们组合成一个高度准确的假设。最初,提升算法是在过滤框架下发明的,在这个框架中,提升器可以从整个实例空间中随机抽样。而在子抽样框架中,提升器会提前获得一批示例。当数据规模较小时,子抽样框架更合适;但对于大数据,过滤框架具有两个优势:一是通过“过滤”示例,只接受必要的示例,降低了空间复杂度;二是提升器可以自动确定足够的样本大小,而在子抽样框架中,预先确定足够的样本大小并非易事。然而,早期在过滤框架下工作的提升算法并不实用,因为它们不是“自适应”的,需要关于弱假设准确性的先验知识。

MadaBoost是AdaBoost的一种改进,它是第一个在过滤框架下工作的自适应提升算法。结合自适应抽样方法,MadaBoost在大数据上比AdaBoost更高效,同时保持了预测准确性。由于其更新方案的性质,MadaBoost被归类为“平滑”提升算法之一。平滑提升算法只处理数据上的平滑分布,这种分布的平滑性使提升算法能够高效地抽样数据,并且在各种噪声学习环境中具有噪声容忍的理论保证。

不过,平滑提升算法仍有改进的空间。非平滑提升算法InfoBoost在子抽样框架中比其他提升算法更高效

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值