区分bootstrap、bagging、boosting和adaboost

本文介绍了机器学习中常用的四种重采样技术:bootstrap、bagging、boosting和adaboost。详细阐述了每种方法的工作原理及应用场景,并通过数学公式解释了adaboost算法的具体实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

bootstrap、bagging、boosting和adaboost是机器学习中几种常用的重采样方法。其中bootstrap重采样方法主要用于统计量的估计,bagging、boosting 和 adaboost方法则主要用于多个子分类器的组合

一、bootstrap:估计统计量的重采样方法

    bootstrap方法是从大小为n的原始训练数据集D中随机选择n个样本点组成一个新的训练集,这个选择过程独立重复B次,然后用这B个数据集对模型统计量进行估计(如均值、方差等)。由于原始数据集的大小就是n,所以这B个新的训练集中不可避免的会存在重复的样本。

    统计量的估计值定义为独立的B个训练集上的估计值θb的平均:

θ=1Bb=1Bθb

二、bagging:

    bagging方法是从大小为n的原始训练数据集D中随机选择n(n<n)个样本点组成一个新的训练集,这个选择过程独立重复B次。然后,每一个新的训练集都被独立的用于训练一个子分类器,最终分类器的分类结果由这些子分类器投票决定。

三、boosting:

    boosting依次训练k个子分类器,最终的分类结果由这些子分类器投票决定。首先从大小为n的原始训练数据集中随机选取n1个样本训练出第一个分类器,记为C1,然后构造第二个分类器C2的训练集D2,要求:D2中一半样本能被C1正确分类,而另一半样本被C1错分。接着继续构造第三个分类器C3的训练集D3,要求:C1C2D3中样本的分类结果不同。剩余的子分类器按照类似的思路进行训练。

    boosting构造新训练集的主要原则是使用最富信息的样本。

四、adaboost:

    adaboost方法是boosting方法的一种改进。adaboost为每个样本赋予一个权值,adaboost希望在下一轮训练时被上一个子分类器正确分类的样本权重和与被错误分类的样本权重和相等,从而下一个子分类器会和前一个子分类器有较大差别。上一个子分类器在这个数据集上正确率为50%

    例如:假设第i个子分类器Ci在数据集D上错误分类1126个样本,正确分类6211个样本,那么错误率为11267337,正确率为62117337。为了使Ci在这个数据集D上的分类错误率为50%,错误分类样本权重乘以6211,正确分类样本权重乘以1126。

    按照这个思路,假设δi=1ϵiϵiϵiCi在训练集上的分类错误率,错误分类样本权重werror和正确分类样本权重wcorrect的更新规则为:

werrorwerrorδiwcorrectwcorrect/δi

adaboost算法总结如下:

Adaboost

    当分类结果与标签不同时ym(xj)tj,指示函数I(ym(xj)tj)等于1,否则等于0。最小化目标函数Jm=nj=1w(m)jI(ym(xj)tj)时可以先按照权重进行采样得到新的训练集,然后在这个训练集上训练子分类器。

参考文献:

[1]Pattern Recognition and Machine Learning
[2]模式分类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值