15、决策树与规则分类:技术解析与应用

决策树与规则分类:技术解析与应用

1. 模型优化与误差成本

在模型优化过程中,我们可以看到通过某种方式将总错误率从提升前的 27% 降低到了提升后模型的 18%,这一提升比预期的 25% 降低幅度还要大。不过,该模型在预测违约情况方面表现不佳,仅能正确预测 20/33 = 61% 的违约情况。这种改进不足可能是由于训练数据集相对较小,也可能是问题本身较难解决。

虽然提升操作看似简单,但并非能默认应用于每个决策树,原因主要有两点:
- 若构建单个决策树就需要大量计算时间,那么构建多个树在计算上可能不切实际。
- 若训练数据噪声很大,提升操作可能根本无法带来改进。不过,如果需要更高的准确性,仍值得一试。

在贷款审批场景中,向可能违约的申请人发放贷款是代价高昂的错误。为减少假阴性的数量,一种解决方案是拒绝更多处于边缘情况的申请人,因为银行从高风险贷款中获得的利息远不及贷款无法收回时遭受的巨大损失。

C5.0 算法允许我们为不同类型的错误分配惩罚,以避免决策树做出代价更高的错误。惩罚通过成本矩阵指定,该矩阵明确了每个错误相对于其他预测的代价。构建成本矩阵的步骤如下:
1. 指定矩阵维度:由于预测值和实际值都可以取“是”或“否”两个值,我们需要用包含两个向量(每个向量有两个值)的列表来描述一个 2 x 2 的矩阵,并为矩阵维度命名以避免混淆。

matrix_dimensions <- list(c("no", "yes"), c("no", "yes"))
names(matrix_dimensions) <- c("predicted", "actual"
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值