C4.5 是由 Ross Quinlan 提出的决策树算法,是对 ID3 算法的改进版本。它在 ID3 的基础上,解决了以下问题:
- 处理连续型数据:支持连续型特征,能够通过划分点将连续特征离散化。
- 处理缺失值:能够在特征值缺失的情况下继续构建决策树。
- 偏好多值特征的问题:采用信息增益比(Gain Ratio)替代信息增益,减少对多值特征的偏好。
- 生成剪枝后的树:通过后剪枝技术,降低过拟合风险。
1. 核心改进
(1) 信息增益比
C4.5 使用**信息增益比(Gain Ratio)**代替 ID3 的信息增益来选择最优特征。
- 信息增益 IG(D, A):
- 分裂信息 SI(A):
其中:
-
:特征 AAA 的第 vvv 个取值的样本比例。
-
信息增益比 GR(D, A):
分裂信息