决策树算法（C4.5算法）

最新推荐文章于 2023-10-09 14:52:44 发布

李逍遥敲代码

最新推荐文章于 2023-10-09 14:52:44 发布

阅读量3.9k

点赞数

CC 4.0 BY-SA版权

文章标签：算法 python 计算机视觉 opencv 开发语言

本文链接：https://blog.youkuaiyun.com/weixin_41984456/article/details/127571808

本文介绍了C4.5决策树算法，包括其相对于ID3的改进，如使用信息增益率，处理连续属性，以及对不完整数据的处理能力。C4.5算法流程包括属性选择、离散化处理和信息增益率计算。通过代码展示了C4.5算法的实现，并在数据集上进行了训练和测试，以评估其分类性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树算法（C4.5算法）

1．1 题目的主要研究内容

组的主要任务描述

熟悉和掌握决策树的分类原理、实质和过程，掌握决策树典型算法（ID3、C4.5、CART）的核心思想和实现过程。

（2）自己工作的主要描述（宋体小四号不加粗1.5倍行距）

首先进行决策树中C4.5算法的概述及其C4.5算法的思想、说明C4.5算法的原理及其推导过程、C4.5算法的流程、C4.5算法就ID3算法的差异、C4.5算法改进的优缺点。

1.2 C4.5算法概述

C4.5算法之所以是最常用的决策树算法，是因为它继承了ID3算法的所有优点并对ID3算的进行了改进和补充。C4.5算法采用信息增益率作为选择分支属性的标准，克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足，并能够完成对连续属性离散化是处理，还能够对不完整数据进行处理。C4.5算法属于基于信息论（Information Theory）的方法，它是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。

1.3 C4.5算法的思想

C4.5算法与ID3算法生成决策树的步骤过程基本相同，主要区别在于连续型属性和属性度量的计算，ID3算法不能处理连续型属性，而C4.5算法可以先离散化连续型属性，然后进行属性选择计算；在属性度量计算时，ID3算法利用信息增益进行属性选择计算，C4.5 算法则运用信息增益率计算。

1.4 C4.5算法相对于ID3算法改进之后有如下优点:

(1) C4.5算法的最大改进就是不在用信息增益来选择属性，而是采用信息增率，这么做就可以避免那些样本数量多但却对分类贡献少的属性作为根节点，提高了算法准确率。

(2)对树进行前剪枝，发现数据有问题可以及时处理，不用等到树建完后在对其剪枝，这样就大大提高了算法效率。

(3)能够通过对数据进行泛化，使连续数据离散化，从而增加了对连续数据的处理能力。

(4)在面对有缺失的数据时，C4.5算法依然能够有效处理。

1．5 C4.5算法信息增益率

信息增益率就是对信息增益进行了规范化，即C4.5算法思想运用信息增益率公式替换了ID3算法中的信息增益的计算思想。

信息增益的规范化用到了“分裂信息(split information)”的概念。

在训练集T中，公式表达了属性A的分裂信息。

与信息增益不同的是，信息增益率是用来计量相同的划分所获得的信息。