4、机器学习中的决策树与集成学习

机器学习中的决策树与集成学习

决策树基础

决策树的核心在于通过特征划分数据集以最大化信息增益,就像按花色拆分扑克牌能降低小牌堆的熵一样。在决策树里,有两种常见的衡量信息增益或杂质损失的方法:
- 基尼指数
- 对数损失或熵

详细解释可参考:https://scikit-learn.org/stable/modules/tree.html#classification-criteria

C4.5算法构建决策树

C4.5是一种从数据集中构建决策树的递归算法,其基础情况如下:
1. 若子数据集中所有样本属于同一类别,则创建选择该类别的叶节点。
2. 若使用任何特征拆分都无法获得信息(数据集无法再分割),则创建预测子数据集中最频繁类别的叶节点。
3. 若子数据集达到样本的最小阈值,则创建预测子数据集中最频繁类别的叶节点。

算法应用步骤:
1. 检查上述三种基础情况,若适用于数据集则停止拆分。
2. 对于数据集的每个特征或属性,计算按该特征拆分数据集所获得的信息。
3. 按信息增益最高的特征拆分数据集,创建决策节点。
4. 根据决策节点将数据集拆分为两个子数据集,并对每个子数据集递归应用该算法。

构建完树后会进行剪枝,移除信息增益相对较低的决策节点,避免过拟合训练数据,提高树的泛化能力。

分类与回归树(CART)

C4.5算法仅支持分类树,而CART扩展了C4.5以支持数值目标变量,即回归问题。决策节点也能拆分连续数值输入变量,通常使用阈值(如x <= 0.3)。到达叶节点时,一般取剩余数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值