[博学谷学习记录] 超强总结，用心分享|人工智能机器学习决策树知识复习总结分享

AAALice0.0

于 2023-05-09 15:18:51 发布

阅读量171

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习决策树人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_46515036/article/details/130580888

本文详述了决策树算法中的ID3和C4.5的区别，C4.5如何通过信息增益比改进ID3的不足。同时，讨论了决策树与条件概率分布的关系，以及为何使用信息增益比。文章还涵盖了决策树的剪枝策略，解释了未被利用的特征并不一定无用，并指出了决策树的优点和基尼系数的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

1.1 ID3和C4.5对比

1.2 决策树和条件概率分布的关系

1.3 既然信息增益可以计算，为什么C4.5还使用信息增益比？

1.4 决策树怎么剪枝？

1.5 如果特征很多，决策树中最后没有用到的特征一定是无用吗？

1.6 决策树的优点？

1.7 基尼系数存在的问题

1.1 ID3和C4.5对比

ID3算法缺点:

· ID3算法不能处理具有连续值的属性

· ID3算法不能处理属性具有缺失值的样本

· 算法会生成很深的树，容易产生过拟合现象

· 算法一般会优先选择有较多属性值的特征，因为属性值多的特征会有相对较大的信息增益，但这里的属性并不一定是最优的

C4.5算法的核心思想是ID3算法，对ID3算法进行了相应的改进。

· C4.5使用的是信息增益比来选择特征，克服了ID3的不足。

· 可以处理离散型描述属性，也可以处理连续数值型属性

· 能处理不完整数据

1.2 决策树和条件概率分布的关系

决策树可以表示成给定条件下类的条件概率分布. 决策树中的每一条路径都对应是划分的一个条件概率分布. 每一个叶子节点都是通过多个条件之后的划分空间，在叶子节点中计算每个类的条件概率，必然会倾向于某一个类，即这个类的概率最大.

1.3 既然信息增益可以计算，为什么C4.5还使用信息增益比？

在使用信息增益的时候，如果某个特征有很多取值，使用这个取值多的特征会的大的信息增益，这个问题是出现很多分支，将数据划分更细，模型复杂度高，出现过拟合的机率更大。使用信息增益比就是为了解决偏向于选择取值较多的特征的问题. 使用信息增益比对取值多的特征加上的惩罚，对这个问题进行了校正.

1.4 决策树怎么剪枝？

一般算法在构造决策树的都是尽可能的细分，直到数据不可划分才会到达叶子节点，停止划分. 因为给训练数据巨大的信任，这种形式形式很容易造成过拟合，为了防止过拟合需要进行决策树剪枝. 一般分为预剪枝和后剪枝，预剪枝是在决策树的构建过程中加入限制，比如控制叶子节点最少的样本个数，提前停止. 后剪枝是在决策树构建完成之后，根据加上正则项的结构风险最小化自下向上进行的剪枝操作. 剪枝的目的就是防止过拟合，是模型在测试数据上变现良好，更加鲁棒.

1.5 如果特征很多，决策树中最后没有用到的特征一定是无用吗？

不是无用的，从两个角度考虑，一是特征替代性，如果可以已经使用的特征A和特征B可以提点特征C，特征C可能就没有被使用，但是如果把特征C单独拿出来进行训练，依然有效. 其二，决策树的每一条路径就是计算条件概率的条件，前面的条件如果包含了后面的条件，只是这个条件在这棵树中是无用的，如果把这个条件拿出来也是可以帮助分析数据.

1.6 决策树的优点？

优点: 决策树模型可读性好，具有描述性，有助于人工分析；效率高，决策树只需要一次性构建反复使用，每一次预测的最大计算次数不超过决策树的深度。

缺点: 对中间值的缺失敏感；可能产生过度匹配的问题，即过拟合。

1.7 基尼系数存在的问题

基尼指数偏向于多值属性;当类数较大时，基尼指数求解比较困难;基尼指数倾向于支持在两个分区中生成大小相同的测试。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。