分类与回归树及神经网络学习方法解析
1. 随机森林与梯度提升树在分类问题中的应用
在分类问题的研究中,我们首先对随机森林和梯度提升树这两种方法进行了深入探讨。
1.1 随机森林的表现
随机森林在不同数据集上的表现差异较大。在糖尿病数据集中,随机森林的表现令人失望。其袋外(OOB)误差率估计为 19.48%,混淆矩阵如下:
| | No | Yes | class.error |
| — | — | — | — |
| No | 230 | 32 | 0.1221374 |
| Yes | 43 | 80 | 0.3495935 |
当森林中有 80 棵树时,OOB 误差的改善微乎其微。在测试数据上,随机森林的准确率仅为 73%,低于支持向量机(SVM)模型的表现。然而,在乳腺癌诊断数据集中,随机森林却表现出色,成为目前最好的分类器。
1.2 极端梯度提升(XGBoost)的应用
由于 XGBoost 方法声誉良好,我们将其应用于糖尿病数据集。在使用 XGBoost 时,需要调整多个参数,具体如下:
- nrounds :最大迭代次数(最终模型中的树的数量)。
- colsample_bytree :构建树时采样的特征数量(以比例表示),默认值为 1(即 100%的特征)。
- min_child_weight :被提升树的最小权重,默认值为 1。
- eta :学习率,即每棵树对解决方
超级会员免费看
订阅专栏 解锁全文
715

被折叠的 条评论
为什么被折叠?



