分类树性能评估与过拟合避免策略
在数据建模中,对分类树的性能评估和过拟合问题的处理至关重要。下面将详细介绍相关内容,包括分类树性能评估的方法、过拟合的原因以及避免过拟合的策略,并结合实际案例进行说明。
分类树性能评估
在评估分类树性能时,不能仅依赖训练数据拟合模型,还需要使用样本外数据进行评估和调优。这是因为分类树和回归树存在两个问题:
- 树结构不稳定 :树结构可能会因所选样本的不同而发生显著变化。例如,将数据随机分为两个样本 A 和 B 并分别构建树,如果有几个预测能力大致相同的预测变量,样本 A 和 B 很可能会选择不同的预测变量进行顶层分割,进而导致不同的规则集。
- 过拟合问题 :完全拟合的树必然会导致过拟合,在新数据上表现不佳。
为了说明这些问题,以 Universal Bank 的个人贷款接受情况为例。该银行希望将负债客户转化为个人贷款客户,分析目标是建模之前营销活动的客户行为,找出使客户更有可能接受个人贷款的因素组合。
银行数据集包含 5000 个客户的数据,包括客户的人口统计信息、对上次个人贷款营销活动的响应以及与银行的关系等。在 5000 个客户中,只有 480 人(9.6%)接受了之前提供的个人贷款。
将数据随机分为训练集(3000 条记录)和验证集(2000 条记录)后,使用训练数据构建分类树。图 9.9 展示了一个有 7 次分割的默认树,顶层节点包含训练集中的所有记录,其中 2709 个客户未接受贷款,291 个客户接受了贷款。第一次分割基于收入变量,将客户分为收入小于 114 和大于等于 114 的两组。分割过程会持续
超级会员免费看
订阅专栏 解锁全文
888

被折叠的 条评论
为什么被折叠?



