[转]KAGGLE ENSEMBLING GUIDE

本文深入探讨了集成学习中的投票机制、平均法、排名平均、堆叠泛化与融合等关键技术,通过代码实例展示了如何在Kaggle竞赛中应用这些方法提升模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文地址:http://mlwave.com/kaggle-ensembling-guide/

Voting

  • 投票机制,少数服从多数,多个弱分类器,从概率上可以计算组合起来正确可能性更高
  • 各个分类器相关性太高的话,最终结果不好。选择相关性不太强的分类器
  • weighing,加权重。比如一种5个classifier,最强的一个算三票,其余各个算一票。这样子,The only way for the inferior models to overrule the best model (expert) is for them to collectively (and confidently) agree on an alternative.

Averaging

  • 过拟合的问题
  • Rank averaging,先转换成rank,再average。因为有可能各个classifier的结果量级不一致
  • stream类型的数据,利用历史的rank来做Historical ranks

Stacked Generalization & Blending

  • 我去,这个看起来最麻烦,大体意思就是,先用一层来产出一个中间结果,再用这个中间结果套一层方法,产出最终结果
  • stack vs blending,感觉就是是不是要k-fold。blending是固定选一个集合做test
  • 结合代码来看比较清晰
    • https://github.com/emanuele/kaggle_pbr/blob/master/blend.py
    • 第一层时一共有5个不同classifier
    • 训练集是X,对应的标签是y,预测集合是X_Submission
    • 将原始的X、y,进行k-fold划分,分成小train和小test(Xtrain,Xtest,Ytrain,Ytest)
    • 遍历5个classifier i
      • 遍历k-fold j
        • 获得当前拆分的Xtrain和Ytrain,在当前的classifier中,训练得到一个模型
        • 用这个模型去预测这部分的Xtest(遍历完k-fold后,就得到完整的 i 的 X-new-train)
        • 用模型去跑整个预测集X_Submission, blend_test_j
      • 将上面的预测 blend_test_j 求平均,得到X_Submission在Classifier i 的作用下的预测结果
  • i 的循环结束后,获得两个新数据集
    1. X-new-train 行数等于X的样本个数,列数为训练器i个数,每一个值为这个训练器i的预测结果
    2. X-new-test 行数等于X_Submission的样本个数,列数为训练器i个数,每一个值为这个训练器i的预测结果
  • 然后,用X-new-train这个合成的结果作为新的训练集train,用y作为标签,套一层LR,算得模型
  • 再用X-new-test作为预测集合,预测结果。
  • 擦,感觉还是讲复杂了Orz。其实就是,n个训练器,在train集得到的结果组成新的train集,在predict集得到的结果组成新的predict集。标签用一样的。就okay了。

后面的没怎么看懂Orz

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值