决策树与规则分类:技术解析与应用
1. 模型优化与误差成本
在模型优化过程中,我们可以看到通过某种方式将总错误率从提升前的 27% 降低到了提升后模型的 18%,这一提升比预期的 25% 降低幅度还要大。不过,该模型在预测违约情况方面表现不佳,仅能正确预测 20/33 = 61% 的违约情况。这种改进不足可能是由于训练数据集相对较小,也可能是问题本身较难解决。
虽然提升操作看似简单,但并非能默认应用于每个决策树,原因主要有两点:
- 若构建单个决策树就需要大量计算时间,那么构建多个树在计算上可能不切实际。
- 若训练数据噪声很大,提升操作可能根本无法带来改进。不过,如果需要更高的准确性,仍值得一试。
在贷款审批场景中,向可能违约的申请人发放贷款是代价高昂的错误。为减少假阴性的数量,一种解决方案是拒绝更多处于边缘情况的申请人,因为银行从高风险贷款中获得的利息远不及贷款无法收回时遭受的巨大损失。
C5.0 算法允许我们为不同类型的错误分配惩罚,以避免决策树做出代价更高的错误。惩罚通过成本矩阵指定,该矩阵明确了每个错误相对于其他预测的代价。构建成本矩阵的步骤如下:
1. 指定矩阵维度:由于预测值和实际值都可以取“是”或“否”两个值,我们需要用包含两个向量(每个向量有两个值)的列表来描述一个 2 x 2 的矩阵,并为矩阵维度命名以避免混淆。
matrix_dimensions <- list(c("no", "yes"), c("no", "yes"))
names(matrix_dimensions) <- c("predicted", "actual"
超级会员免费看
订阅专栏 解锁全文
1146

被折叠的 条评论
为什么被折叠?



