《大数据机器学习实践探索》---- 使用pyspark 进行kaggle比赛Give me some credit数据集的建模与分析（3. 随机森林进行二分类）

最新推荐文章于 2023-03-13 14:12:01 发布

shiter

最新推荐文章于 2023-03-13 14:12:01 发布

阅读量785

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据机器学习实践探索 AI赋能行业实战：‌最佳实践与落地案例深度解析！‌ 文章标签：随机森林 pyspark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wangyaninglm/article/details/115555732

AI赋能行业实战：‌最佳实践与落地案例深度解析！‌ 同时被 2 个专栏收录

218 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

大数据机器学习实践探索

130 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章大纲

随机森林简介与原理
- 简介
- 原理
pyspark 随机森林
- 算法参数
实现流程
参考文献

随机森林简介与原理

简介

原理

随机森林是由许多决策树构成，是一种有监督机器学习方法，可以用于分类和回归，通过合并汇总来自个体决策树的结果来进行预测，采用多数选票作为分类结果，采用预测结果平均值作为回归结果。
“森林”的概念很好理解，“随机”是针对森林中的每一颗决策树，有两种含义：

第一种随机是数据采样随机，构建决策树的训练数据集通过有放回的随机采样，并且只会选择一定百分比的样本，这样可以在数据集合存在噪声点、异常点的情况下，有些决策树的构造过程中不会选择到这些噪声点、异常点从而达到一定的泛化作用在一定程度上抑制过拟合；

第二种随机是特征随机，训练集会包含一系列特征，随机选择一部分特征进行决策树的构建。通过这些差异点来训练的每一颗决策树都会学习输入与输出的关系，随机森林的强大之处也就在于此。

随机森林在以决策树为基学习器构建 Bagging 集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。具体来讲，传统决策树在选择划分属性时，在当前节点的属性集合（假设有 d 个属性）中选择一个最优属性；而在随机森林中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含 k 个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数 k 控制了随机性的引入程度。若令 k=d ，则基决策树的构建与传统决策树相同；若令 k=1 ，则是随机选择一个属性用于划分。

随机森林分类算法的步骤如下：
对训练集进行有放回随机抽样以获得p

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。