集成学习


【定义】

个体学习器1
结合模块
个体学习器2
个体学习器n
输出

【分类】

个体学习器间存在强依赖关系
串行方法
Boosting
个体学习器间不存在强依赖关系
并行方法
Bagging 和 Random Forest
  • 第一种方法,根据一个基学习器衍生出其他基学习器
  • 第二种方法,根据不同的采样子集训练不同的基学习器

Boosting

【步骤】

Created with Raphaël 2.2.0 训练样本 训练一个基学习器 根据基学习器的表现,调整训练样本分布 yes

如此重复,直到基学习器数目达到T
最终将这T个基学习器进行加权

AdaBoost

【原理】利用基学习器的线性组合最小化指数损失函数

  • 指数损失函数
    L ( Y , f ( X ) ) = e x p ( − Y f ( X ) ) L(Y,f(X))=exp (-Yf(X)) L(Y,f(X))=exp(Yf(X))
  • 0-1损失函数
    L ( Y , f ( X ) ) = 1 , ∣ Y − f ( X ) ∣ > = T L(Y,f(X))=1,|Y-f(X)|>=T L(Y,f(X))=1,Yf(X)>=T
    L ( Y , f ( X ) ) = 0 , ∣ Y − f ( X ) ∣ &lt; T L(Y,f(X))=0,|Y-f(X)|&lt;T L(Y,f(X))=0,Yf(X)<T
  • 绝对值损失
  • 对数损失函数
    L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-log P(Y|X) L(Y,P(YX))=logP(YX)
    样本X在标签Y的情况下,使概率P(Y|X)达到最大值
  • 平方损失函数

Bagging

  • 利用自主采样法,得到T个不同的采样集,以此得到T个不同的基学习器
  • 对分类进行投票,若平票则随机选择
    对回归进行平均

Random Forest

RF是Bagging的一个扩展变体

  • 对基决策树的每个节点
    • 先从该节点的属性集合中随机选择一个包含k个(一般 k = l o g 2 d k=log_2 d k=log2d)属性的子集
    • 再从这个子集中选择一个最优属性用于划分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值