Introduction to Ensembling/Stacking

最新推荐文章于 2023-11-03 17:49:23 发布

Adam婷

最新推荐文章于 2023-11-03 17:49:23 发布

阅读量520

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习数据科学算法概念理解

本文链接：https://blog.youkuaiyun.com/weixin_41697507/article/details/89323079

机器学习同时被 3 个专栏收录

161 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

概念理解

20 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

算法

161 篇文章

订阅专栏

这篇博客介绍了堆叠（Ensembling/Stacking）的基本概念，以泰坦尼克数据集为例，展示了如何通过Python实现集成学习。内容包括数据探索、特征工程、可视化，以及使用随机森林、额外树、AdaBoost、梯度提升和SVM作为基础模型，通过XGBoost进行第二级预测。博客还讨论了特征重要性和模型性能的提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Introduction

这个笔记本是一个非常基本和简单的入门入门，用于集成（组合）基础学习模型的方法，特别是称为堆叠的集成变体。简而言之，堆叠用作第一级（基础），预测几个基本分类器，然后在第二级使用另一个模型来预测早期第一级预测的输出。

泰坦尼克数据集是引入这一概念的主要候选人，因为很多新人都会向Kaggle开始。此外，尽管堆叠已经成为许多团队赢得Kaggle比赛的原因，但似乎缺乏关于这个主题的内核，所以我希望这款笔记本可以填补这个空白。

我自己也是Kaggle场景的新手，我设法学习和学习的第一个合适的集合/堆叠脚本是由伟大的Faron在AllState Severity Claims竞赛中写的。这本笔记本中的材料大量借用了Faron的剧本，虽然它被用来考虑分类器的合奏，而他的是回归者的合奏。无论如何，请在这里查看他的脚本：
Stacking Starter : by Faron

现在到了手头的笔记本上，我希望它能够伸张正义并以直观和简洁的方式传达集合的概念。我的另一个单独的Kaggle [script] 2实现了完全相同的整合步骤（尽管有不同的参数），下面给出的公共LB得分为0.808，这足以达到前9％并