python实现分类决策树ID3和C4.5算法

最新推荐文章于 2023-04-02 12:19:10 发布

原创

最新推荐文章于 2023-04-02 12:19:10 发布 · 2.7k 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了ID3算法及其局限，包括信息熵、条件熵和信息增益的概念，并展示了Python代码实现。接着讨论了数据离散化、决策树剪枝策略。还介绍了C4.5算法作为ID3的改进，如何处理连续特征、过拟合、缺失值问题，并对比了C4.5与CART回归树的区别。

ID3算法全称为迭代二叉树3代算法（Iterative Dichotomiser 3）
该算法要先进行特征选择，再生成决策树，其中特征选择是基于“信息增益”最大的原则进行的。
但由于决策树完全基于训练集生成的，有可能对训练集过于“依赖”，即产生过拟合现象。因此在生成决策树后，需要对决策树进行剪枝。剪枝有两种形式，分别为前剪枝（Pre-Pruning）和后剪枝（Post-Pruning），一般采用后剪枝。

信息熵：来自于香农定理，表示信息集合所含信息的平均不确定性。信息熵越大，表示不确定性越大，所含的信息量也就越大。
设 ${x_1, x_2, x_3, ...x_n}$ 为信息集合X的n个取值，则 $x_i$ 的概率： $P(X=i) = p_i, i=1,2,3,...,n$
信息集合X的信息熵为： $\sum_{i=1}^{n}{p_i}\log{p_i}$
条件熵：指已知某个随机变量的情况下，信息集合的信息熵。
设信息集合X中有 ${y_1, y_2, y_3, ...y_m}$ 组成的随机变量集合Y，则随机变量（X，Y）的联合概率分布为 $P(x=i,y=j) = p_{ij}$ 条件熵： $\sum_{j=1}^m{p(y_j)H(X|y_j)}$ 由 $H(X|y_j) = - \sum_{j=1}^m{p(y_j)}\sum_{i=1}^n{p(x_i|y_j)}\log{p(x_i|y_j)}$