ID3(Iterative Dichotomiser 3)是决策树的一种构造算法,由 Ross Quinlan 在 1986 年提出。它主要用于分类问题,通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征,且不支持连续型数据。
1. 核心思想
-
划分标准:
- 使用 信息增益(Information Gain)作为特征选择的标准。
- 选择信息增益最大的特征进行分裂。
-
递归构造:
- 从根节点开始,每次根据信息增益选择特征,生成子节点。
- 对每个子节点重复这一过程,直到满足停止条件(例如数据不可再分,或者所有样本类别相同)。
2. 信息增益
信息增益基于**信息熵(Entropy)**的概念:
信息熵的定义
信息熵衡量数据集的不确定性:
- D:数据集。
- C:类别数。
:数据集中属于第 i 类的概率。
条件熵
划分数据集 D 后的条件熵为:
- A:划分特征。
&#x