9、使用scikit-learn进行机器学习分类器之旅

使用scikit-learn进行机器学习分类器之旅

1. 决策树学习

1.1 决策树概述

决策树分类器在注重可解释性的场景中是极具吸引力的模型。可以将其视为通过一系列问题对数据进行划分的模型。例如,在鸢尾花数据集里,可沿萼片宽度特征轴定义一个截断值,提出类似“萼片宽度是否≥2.8 cm?”的二元问题。

决策树从根节点开始,依据能带来最大信息增益(IG)的特征对数据进行划分。在迭代过程中,对每个子节点重复此划分过程,直至叶子节点纯净,即每个节点的训练样本都属于同一类别。不过,实际操作中这可能会导致树过深、节点过多,从而容易引发过拟合。因此,通常会通过设置树的最大深度来对树进行剪枝。

1.2 最大化信息增益

为了在最具信息价值的特征上划分节点,需要定义一个目标函数,通过树学习算法对其进行优化。目标是在每次划分时最大化信息增益,其定义如下:
[IG(D_p, f) = I(D_p) - \sum_{j=1}^{m} \frac{N_j}{N_p} I(D_j)]
其中,$f$ 是用于划分的特征;$D_p$ 和 $D_j$ 分别是父节点和第 $j$ 个子节点的数据集;$I$ 是杂质度量;$N_p$ 是父节点的训练样本总数;$N_j$ 是第 $j$ 个子节点的样本数。信息增益就是父节点杂质与子节点杂质总和的差值,子节点杂质越低,信息增益越大。

为简化并减少组合搜索空间,大多数库(包括scikit-learn)采用二叉决策树,即每个父节点划分为两个子节点 $D_{left}$ 和 $D_{right}$ ,此时信息增益公式为:
[IG(D_p, f) = I(D_p) - \frac{N_{le

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值