使用Python构建集成模型:随机森林与梯度提升在未爆地雷检测中的应用
1. 梯度提升和随机森林的变量重要性比较
在某些情况下,梯度提升和随机森林在变量重要性排序上存在一定的相似性。例如,基于简单树的梯度提升和基于随机森林基学习器的梯度提升,它们的变量重要性列表中,内脏重量和高度(第四和第五重要的变量)的位置会互换。并且,随机森林生成的重要性列表顺序与梯度提升生成的两个列表顺序差异不大。
有观点认为,随机森林在更广泛的属性空间中具有优势,特别是在处理稀疏数据(如文本挖掘问题)时。接下来,我们将通过一个二元分类问题——利用声纳输出区分岩石和地雷,来比较这两种算法的性能。该问题有60个属性,虽不如文本挖掘问题的属性空间那么广泛,但或许能展现出使用普通二元决策树的梯度提升与使用随机森林基学习器的梯度提升之间的性能差异。
2. 二元分类和多类分类问题
分类问题主要分为二元分类和多类分类两种基本类型:
- 二元分类 :有两种可能的结果,例如“点击广告”或“未点击广告”。这里以岩石与地雷问题为例,任务是利用声纳回波确定被扫描物体是岩石还是地雷。
- 多类分类 :有两种以上可能的结果,如根据化学成分对玻璃样本进行分类,可用于展示Python集成方法在这类问题中的应用。
3. 使用Python随机森林检测未爆地雷
3.1 RandomForestClassifier的构造函数和参数
RandomForestClassifier 的大部分参数与 RandomForest
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



