AdaBoost核心思想是 “让弱学习器变强”,核心是 “自适应加权”—— 通过调整样本权重让弱学习器关注难分样本,通过调整学习器权重让好的学习器更有话语权,最终加权融合成强学习器。它原理简单、易实现,同时也是处理简单任务、验证数据质量的实用工具。
总结一下:AdaBoost 先初始化所有样本权重,再迭代训练弱学习器(每次聚焦权重高的错分样本),并根据弱学习器性能分配权重,最终将所有弱学习器按权重加权组合,得到强学习器。
一、核心原理:“知错就改” 的自适应加权
AdaBoost 的本质是通过迭代训练多个 “弱学习器”(通常是简单决策树,即 “决策 stump”),并根据每个弱学习器的表现(误差)动态调整样本权重和学习器权重,最终将所有弱学习器加权融合成一个强学习器。
核心逻辑可拆解为两个 “自适应”:
- 样本权重自适应:每次训练后,对 “上一轮被误分类的样本” 增加权重(让下一个弱学习器更关注这些难分样本),对 “正确分类的样本” 降低权重(减少不必要的关注)。
- 学习器权重自适应:误差小的弱学习器(表现好)会被赋予更高的权重(在最终预测中更有话语权),误差大的弱学习器(表现差)权重更低(甚至被淘汰)。
其中,“弱学习器” 指 “性能略优于随机猜测” 的模型(比如二分类任务中,准确率 > 50% 的决策树),AdaBoost 通过 “集体智慧” 让多个弱学习器协同达到强学习器的效果。
二、完整流程:5 步迭代训练与融合
以二分类任务(标签为+1和-1)为例,假设训练样本集为{(x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ)},共迭代M次(训练M个弱学习器),流程如下:
1. 初始化:样本权重平均分配
第一次训练前,所有样本的权重相同(

最低0.47元/天 解锁文章
2276

被折叠的 条评论
为什么被折叠?



