决策树原理总结(ID3、C4.5、CART)+ 常见面试问题

本文深入探讨了CART决策树的实现过程、案例分析和剪枝策略,包括其在分类问题中的应用。同时,文章列举了常见的面试问题,如CART与ID3、C4.5的区别,处理离散和连续特征的方法,以及如何解决过拟合等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

系统梳理树类型算法原理加常见面试问题
类容按照决策树AdaboostGBDTXGBoostLightGBM 顺序进行梳理
本次的重点类容是决策树的CART树
在这里插入图片描述

ID3、C4.5介绍请转移到:ID3、C4.5的原理与案例介绍

1. CART树

ID3与C4.5虽然可以通过多叉树尽可能的挖掘特征信息,但是随着数据量的增加,其决策树分支也会大量增多。CART算法的二分法简化了决策树的规模,提高了生成决策树的效率。

1.1 CART分类树实现过程

输入: 训练集D,基尼系数的阈值,切分的最少样本个数阈值
第一步: 决策树生成,基于训练数据集生成尽可能大的决策树;
1) 假设此时节点的数据集为D,总共有 n 个特征;
2) 对第 i (i <= n) 特征进行Gini系数的求解;首先,将 i 特征的数值进行排序(a1,a2,…am),CART取相邻两样本值的平均数做划分点,一共有m-1个,其中第 i 个划分点Ti表示为:Ti = (ai + ai+1)/2遍历所有的切分点小于切分点的数值分到左子树大于切分点的数值样本分到右子树,计算此时的Cini系数;
3) 遍历完所有特征的全部切分点之后,选择Gini系数最小的特征,将数据集D按照此特征的

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值