[博学谷学习记录] 超强总结,用心分享|人工智能机器学习决策树知识复习总结分享

本文详述了决策树算法中的ID3和C4.5的区别,C4.5如何通过信息增益比改进ID3的不足。同时,讨论了决策树与条件概率分布的关系,以及为何使用信息增益比。文章还涵盖了决策树的剪枝策略,解释了未被利用的特征并不一定无用,并指出了决策树的优点和基尼系数的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1.1 ID3和C4.5对比

1.2 决策树和条件概率分布的关系

1.3 既然信息增益可以计算,为什么C4.5还使用信息增益比?

1.4 决策树怎么剪枝?

1.5 如果特征很多,决策树中最后没有用到的特征一定是无用吗?

1.6 决策树的优点?

1.7 基尼系数存在的问题


1.1 ID3和C4.5对比

ID3算法缺点:

· ID3算法不能处理具有连续值的属性

· ID3算法不能处理属性具有缺失值的样本

· 算法会生成很深的树,容易产生过拟合现象

· 算法一般会优先选择有较多属性值的特征,因为属性值多的特征会有相对较大的信息增益,但这里的属性并不一定是最优的

C4.5算法的核心思想是ID3算法,对ID3算法进行了相应的改进。

· C4.5使用的是信息增益比来选择特征,克服了ID3的不足。

· 可以处理离散型描述属性,也可以处理连续数值型属性

· 能处理不完整数据

1.2 决策树和条件概率分布的关系

决策树可以表示成给定条件下类的条件概率分布. 决策树中的每一条路径都对应是划分的一个条件概率分布. 每一个叶子节点都是通过多个条件之后的划分空间,在叶子节点中计算每个类的条件概率,必然会倾向于某一个类,即这个类的概率最大.

1.3 既然信息增益可以计算,为什么C4.5还使用信息增益比?

在使用信息增益的时候,如果某个特征有很多取值,使用这个取值多的特征会的大的信息增益,这个问题是出现很多分支,将数据划分更细,模型复杂度高,出现过拟合的机率更大。使用信息增益比就是为了解决偏向于选择取值较多的特征的问题. 使用信息增益比对取值多的特征加上的惩罚,对这个问题进行了校正.

1.4 决策树怎么剪枝?

一般算法在构造决策树的都是尽可能的细分,直到数据不可划分才会到达叶子节点,停止划分. 因为给训练数据巨大的信任,这种形式形式很容易造成过拟合,为了防止过拟合需要进行决策树剪枝. 一般分为预剪枝和后剪枝,预剪枝是在决策树的构建过程中加入限制,比如控制叶子节点最少的样本个数,提前停止. 后剪枝是在决策树构建完成之后,根据加上正则项的结构风险最小化自下向上进行的剪枝操作. 剪枝的目的就是防止过拟合,是模型在测试数据上变现良好,更加鲁棒.

1.5 如果特征很多,决策树中最后没有用到的特征一定是无用吗?

不是无用的,从两个角度考虑,一是特征替代性,如果可以已经使用的特征A和特征B可以提点特征C,特征C可能就没有被使用,但是如果把特征C单独拿出来进行训练,依然有效. 其二,决策树的每一条路径就是计算条件概率的条件,前面的条件如果包含了后面的条件,只是这个条件在这棵树中是无用的,如果把这个条件拿出来也是可以帮助分析数据.

1.6 决策树的优点?

优点: 决策树模型可读性好,具有描述性,有助于人工分析;效率高,决策树只需要一次性构建反复使用,每一次预测的最大计算次数不超过决策树的深度。

缺点: 对中间值的缺失敏感;可能产生过度匹配的问题,即过拟合。

1.7 基尼系数存在的问题

基尼指数偏向于多值属性;当类数较大时,基尼指数求解比较困难;基尼指数倾向于支持在两个分区中生成大小相同的测试。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值