C4.5决策树

最新推荐文章于 2025-04-22 03:27:56 发布

原创最新推荐文章于 2025-04-22 03:27:56 发布

· 680 阅读

版权

文章标签：

41 篇文章

订阅专栏

C4.5 决策树

ID3决策树倾向于选择种类多的特征作为分裂依据
在这里插入图片描述
C4.5决策树对ID3决策树进行的修正，采用信息增益率作为选择分类特征的依据。

Gain_Ratio 表示信息增益率
IV 表示分裂信息、内在信息，就是数据集D中某个特征的信息熵，特征熵
信息增益率 = 特征的信息增益 ➗ 内在信息（特征熵）
信息增益率还可以理解为，信息增益 * 惩罚系数，这里的乘法系数为特征熵的倒数
- 如果某个特征的特征值种类较多，则其内在信息值就越大，特征熵越大，惩罚系数越小，与信息增益相乘之后，会减小信息增益选择的缺点。
- 如果某个特征的特征值种类较小，则其内在信息值就越小，特征熵越小，惩罚系数越大。

在这里插入图片描述
特征1的信息增益率：

特征2的信息增益率：

由计算结果可见：

ID3算法缺点
- ID3算法不能处理具有连续值的属性
- ID3算法不能处理属性具有缺失值的样本
- 算法会生成很深的树，容易产生过拟合现象
- 算法一般会优先选择有较多属性值的特征，因为属性值多的特征会有相对较大的信息增益，但这里的属性并不一定是最优的
C4.5算法的核心思想是ID3算法，对ID3算法进行了相应的改进。
- C4.5使用的是信息增益比来选择特征，克服了ID3的不足。
- 可以处理离散型描述属性，也可以处理连续数值型属性
- 能处理不完整数据
C4.5算法优缺点
- 优点：分类规则利于理解，准确率高
- 缺点
  - 在构造过程中，需要对数据集进行多次的顺序扫描和排序，导致算法的低效
  - C4.5只适合于能够驻留内存的数据集，当数据集非常大时，程序无法运行
无论是ID3还是C4.5最好在小数据集上使用，当特征取值很多时最好使用C4.5算法。