37、基于信息准则的平滑提升算法：GiniBoost的原理与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/153553352

基于信息准则的平滑提升算法：GiniBoost的原理与应用

1. 引言

在当今数字化时代，随着计算机和互联网的飞速发展，我们能够获取到海量的数据。在知识发现和机器学习任务中，这些数据的规模可能达到数百GB。因此，让知识发现和机器学习算法具备可扩展性变得至关重要。抽样是处理大数据的有效技术之一，在抽样技术及其在数据挖掘任务（如决策树学习、支持向量机和提升算法）中的应用方面，已经取得了许多成果。

提升算法是机器学习算法中一种简单而高效的学习方法。其基本思想是针对数据的不同分布学习多个略有准确性的弱假设，然后将它们组合成一个高度准确的假设。最初，提升算法是在过滤框架下发明的，在这个框架中，提升器可以从整个实例空间中随机抽样。而在子抽样框架中，提升器会提前获得一批示例。当数据规模较小时，子抽样框架更合适；但对于大数据，过滤框架具有两个优势：一是通过“过滤”示例，只接受必要的示例，降低了空间复杂度；二是提升器可以自动确定足够的样本大小，而在子抽样框架中，预先确定足够的样本大小并非易事。然而，早期在过滤框架下工作的提升算法并不实用，因为它们不是“自适应”的，需要关于弱假设准确性的先验知识。

MadaBoost是AdaBoost的一种改进，它是第一个在过滤框架下工作的自适应提升算法。结合自适应抽样方法，MadaBoost在大数据上比AdaBoost更高效，同时保持了预测准确性。由于其更新方案的性质，MadaBoost被归类为“平滑”提升算法之一。平滑提升算法只处理数据上的平滑分布，这种分布的平滑性使提升算法能够高效地抽样数据，并且在各种噪声学习环境中具有噪声容忍的理论保证。

不过，平滑提升算法仍有改进的空间。非平滑提升算法InfoBoost在子抽样框架中比其他提升算法更高效