基于信息准则的平滑提升算法:GiniBoost的原理与应用
1. 引言
在当今数字化时代,随着计算机和互联网的飞速发展,我们能够获取到海量的数据。在知识发现和机器学习任务中,这些数据的规模可能达到数百GB。因此,让知识发现和机器学习算法具备可扩展性变得至关重要。抽样是处理大数据的有效技术之一,在抽样技术及其在数据挖掘任务(如决策树学习、支持向量机和提升算法)中的应用方面,已经取得了许多成果。
提升算法是机器学习算法中一种简单而高效的学习方法。其基本思想是针对数据的不同分布学习多个略有准确性的弱假设,然后将它们组合成一个高度准确的假设。最初,提升算法是在过滤框架下发明的,在这个框架中,提升器可以从整个实例空间中随机抽样。而在子抽样框架中,提升器会提前获得一批示例。当数据规模较小时,子抽样框架更合适;但对于大数据,过滤框架具有两个优势:一是通过“过滤”示例,只接受必要的示例,降低了空间复杂度;二是提升器可以自动确定足够的样本大小,而在子抽样框架中,预先确定足够的样本大小并非易事。然而,早期在过滤框架下工作的提升算法并不实用,因为它们不是“自适应”的,需要关于弱假设准确性的先验知识。
MadaBoost是AdaBoost的一种改进,它是第一个在过滤框架下工作的自适应提升算法。结合自适应抽样方法,MadaBoost在大数据上比AdaBoost更高效,同时保持了预测准确性。由于其更新方案的性质,MadaBoost被归类为“平滑”提升算法之一。平滑提升算法只处理数据上的平滑分布,这种分布的平滑性使提升算法能够高效地抽样数据,并且在各种噪声学习环境中具有噪声容忍的理论保证。
不过,平滑提升算法仍有改进的空间。非平滑提升算法InfoBoost在子抽样框架中比其他提升算法更高效
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



