决策树与规则分类:从基础到应用
1. 决策树提升与误差成本
在某些模型中,通过提升操作可将总错误率从提升前的 27% 降至 18%,这一提升幅度比预期的 25% 还要大。不过,该模型在预测违约情况方面仍表现不佳,仅能正确预测 20/33 = 61% 的违约情况。这种提升不足可能是由于训练数据集相对较小,也可能是问题本身就极具挑战性。
既然提升操作如此容易实现,为何不默认对每个决策树都应用呢?原因主要有两点:
- 若构建单个决策树就需大量计算时间,构建多个树在计算上可能不可行。
- 若训练数据噪声较大,提升操作可能根本无法带来改善。
但如果需要更高的准确性,仍值得一试。
在贷款审批场景中,向可能违约的申请人发放贷款可能会造成巨大损失。为减少假阴性(预测不违约但实际违约)的数量,一种方法是拒绝更多处于边缘情况的申请人,因为银行从高风险贷款中获得的利息远不及贷款无法收回所造成的巨大损失。
C5.0 算法允许为不同类型的错误分配惩罚,以避免决策树做出代价更高的错误。惩罚通过成本矩阵来指定,该矩阵明确了每种错误相对于其他预测的代价。构建成本矩阵的步骤如下:
1. 指定矩阵维度 :由于预测值和实际值都有“是”和“否”两种情况,所以需要一个 2x2 的矩阵。使用以下代码设置矩阵维度并命名,避免后续混淆:
matrix_dimensions <- list(c("no", "yes"), c("no", "yes"))
names(matrix_dimensions) <- c("predicted", "actu
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



