Introduction
这个笔记本是一个非常基本和简单的入门入门,用于集成(组合)基础学习模型的方法,特别是称为堆叠的集成变体。简而言之,堆叠用作第一级(基础),预测几个基本分类器,然后在第二级使用另一个模型来预测早期第一级预测的输出。
泰坦尼克数据集是引入这一概念的主要候选人,因为很多新人都会向Kaggle开始。此外,尽管堆叠已经成为许多团队赢得Kaggle比赛的原因,但似乎缺乏关于这个主题的内核,所以我希望这款笔记本可以填补这个空白。
我自己也是Kaggle场景的新手,我设法学习和学习的第一个合适的集合/堆叠脚本是由伟大的Faron在AllState Severity Claims竞赛中写的。这本笔记本中的材料大量借用了Faron的剧本,虽然它被用来考虑分类器的合奏,而他的是回归者的合奏。无论如何,请在这里查看他的脚本:
Stacking Starter : by Faron
现在到了手头的笔记本上,我希望它能够伸张正义并以直观和简洁的方式传达集合的概念。 我的另一个单独的Kaggle [script] 2实现了完全相同的整合步骤(尽管有不同的参数),下面给出的公共LB得分为0.808,这足以达到前9%并