机器学习中的决策树与集成学习
决策树基础
决策树的核心在于通过特征划分数据集以最大化信息增益,就像按花色拆分扑克牌能降低小牌堆的熵一样。在决策树里,有两种常见的衡量信息增益或杂质损失的方法:
- 基尼指数
- 对数损失或熵
详细解释可参考:https://scikit-learn.org/stable/modules/tree.html#classification-criteria
C4.5算法构建决策树
C4.5是一种从数据集中构建决策树的递归算法,其基础情况如下:
1. 若子数据集中所有样本属于同一类别,则创建选择该类别的叶节点。
2. 若使用任何特征拆分都无法获得信息(数据集无法再分割),则创建预测子数据集中最频繁类别的叶节点。
3. 若子数据集达到样本的最小阈值,则创建预测子数据集中最频繁类别的叶节点。
算法应用步骤:
1. 检查上述三种基础情况,若适用于数据集则停止拆分。
2. 对于数据集的每个特征或属性,计算按该特征拆分数据集所获得的信息。
3. 按信息增益最高的特征拆分数据集,创建决策节点。
4. 根据决策节点将数据集拆分为两个子数据集,并对每个子数据集递归应用该算法。
构建完树后会进行剪枝,移除信息增益相对较低的决策节点,避免过拟合训练数据,提高树的泛化能力。
分类与回归树(CART)
C4.5算法仅支持分类树,而CART扩展了C4.5以支持数值目标变量,即回归问题。决策节点也能拆分连续数值输入变量,通常使用阈值(如x <= 0.3)。到达叶节点时,一般取剩余数
超级会员免费看
订阅专栏 解锁全文
1955

被折叠的 条评论
为什么被折叠?



