决策树、随机森林与强化学习:从理论到实践
1. 决策树模型评估
在模型评估过程中,我们对决策树模型进行了训练和验证,得到了如下结果:
|训练集准确率|验证集准确率|
| ---- | ---- |
|0.805|0.775|
|0.788|0.843|
|0.794|0.787|
通过对这些结果的分析,我们发现训练集的平均准确率约为 79.7%,比验证集的 79.1% 高约 0.6 个百分点。而且,验证集的准确率波动范围更大,从 69.7% 到 84.3%,而训练集的准确率范围是 78.8% 到 80.5%。这是因为验证集样本较小,所以更具可变性。
使用 k 折交叉验证,我们可以更全面地了解模型的性能。如果只进行基本的交叉验证,我们可能只能看到 k 折交叉验证结果中的一个,这可能会导致我们得出过于乐观或悲观的结论。而通过 k 折交叉验证,我们可以得出模型不太可能过拟合的结论,因为训练集和验证集的平均误差非常接近。我们预计模型的准确率约为 79.1%,标准偏差为 4.5 个百分点。
graph LR
A[原始数据集] --> B[k 折交叉验证]
B --> C[多个训练集和验证集]
C --> D[训练模型]
D --> E[评估模型]
E --> F[得出模型性能结论]
2. 从脆弱决策树到稳健随机森林
2.1 重采样与信息提取
通过 k 折交叉验证对训练集进行重采样,我们可以在不增加新观测值
超级会员免费看
订阅专栏 解锁全文
1933

被折叠的 条评论
为什么被折叠?



