目录
决策树是机器学习中一种基本的分类和回归算法,是依托于策略抉择而建立起来的树。本文学习的是决策树的分类
1. 构建决策树流程
-
选择算法:常用的算法包括ID3、C4.5、CART等。
-
划分节点:根据数据特征和算法选择,递归地划分节点,直到满足停止条件。
-
决策树剪枝:对决策树进行剪枝操作,减少决策树的复杂度,提高泛化能力。
-
决策树评估:使用测试数据集评估决策树模型的性能,通常使用准确率、召回率、F1值等。
2.常用的三个算法
2.1 ID3
D3采用信息增益来划分属性。
2.12 信息熵
用来衡量数据集的混乱程度,信息熵越大,表明数据集的混乱程度越大,不确定性越大。
公式:
其中pi表示的是分类为xi这个样本在中的占比。
2.12信息增益
划分数据集之前之后信息发生的变化
公式:
信息增益越大,则意味着采用该属性a划分节点获得的纯度提升更大。在每次划分中采用信息增益最大的划分。
信息增益实际上就是数据集整体的信息熵减去使用特征 a进行划分后各子集的加权平均信息熵,即子集的信息熵的期望值。当信息增益越大时,意味着子集的信息熵的减少量越大,即数据集的不确定性减少的程度更大,信息熵变小。
2.2 C4.5
C4.5算法在ID3算法上做了提升,使用信息增益比来构造决策树,且有剪枝功能防止过拟合。
信息增益比:特征a对训练集D的信息增益比定义为特征a的信息增益与训练集D对于a的信息熵之比, 同样是信息增益比越大越好。