提升模型性能与处理专业数据的技巧
一、随机森林模型
1.1 随机森林的优缺点
随机森林相对于其他基于集成的方法具有很强的竞争力,以下是其优缺点:
| 优点 | 缺点 |
| — | — |
| - 通用模型,在大多数问题上表现良好
- 可以处理噪声或缺失数据,以及分类或连续特征
- 仅选择最重要的特征
- 可用于具有大量特征或示例的数据 | - 与决策树不同,模型不易解释
- 可能需要对数据进行一些调整以优化模型 |
1.2 训练随机森林
在R中创建随机森林有多个包, randomForest 包最符合Breiman和Cutler的规范,并且得到了 caret 包的支持以进行自动调优。训练模型的语法如下:
# 默认情况下,randomForest() 函数创建一个包含500棵树的集成,在每次分裂时考虑 sqrt(p) 个随机特征,其中 p 是训练数据集中的特征数量
library(randomForest)
set.seed(300)
rf <- randomForest(default ~ ., data = credit)
下面是对模型性能进行总结查看的代码:
rf
输出结果示例:
Call:
randomForest(formula = default ~ .,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



