机器学习集成算法:从Adaboost到模型融合策略
1. 影响葡萄酒质量的关键因素
在分析葡萄酒质量时,酒精含量是影响质量的最关键特征,挥发性酸度和密度也是重要方面。其他特征的影响程度大致相同,但表示葡萄酒是红葡萄酒还是白葡萄酒的二元特征,在考虑其他物理和化学特性时,并不是决定性因素。
2. 集成学习基础:Bagging与Boosting
- Bagging :通过自助法(bootstrapping)在相似的预测器中引入一些变化,从而减少方差。Bagging在创建的模型彼此不同时最为有效,通常与决策树一起使用。
- Boosting :与Bagging不同,Boosting创建相互关联的简单机器学习算法集成来解决复杂的目标函数。它通过顺序构建模型,并使用前一个模型的信息来训练每个模型。Boosting使用有偏模型(弱学习器),如决策树桩(只有一个分裂分支的决策树)、线性模型、感知机和朴素贝叶斯算法。这些模型在处理复杂目标函数时表现不佳,但训练速度快,且比随机猜测略好。
下面是一个形象的比喻来说明Boosting的工作原理:就像盲人摸象的故事,每个盲人只能摸到大象的一部分,只有将每个人单独了解到的信息汇总起来,才能弄清楚大象的真实形状。Boosting中的每个模型都专注于猜测其他模型失败的目标函数部分,从而简化了集成的整体任务。
3. Adaboost算法详解
- 算法原理 :Adaboost(自适应提升)是1995年由Yoav Freund和Rob