9、机器学习分类器巡礼:使用scikit-learn

机器学习分类器巡礼:使用scikit-learn

1. 决策树学习

决策树分类器在注重可解释性的场景中很有吸引力。它通过一系列问题对数据进行划分,就像我们根据特征决定某一天的活动一样。基于训练数据集中的特征,决策树模型学习一系列问题来推断示例的类别标签。

1.1 决策树构建过程

决策树从根节点开始,根据信息增益(IG)最大的特征对数据进行划分。在迭代过程中,不断在每个子节点重复此划分过程,直到叶子节点纯净,即每个节点的训练示例都属于同一类别。但实际中,这可能导致树很深、节点很多,容易过拟合,因此通常需要设置树的最大深度进行剪枝。

1.2 最大化信息增益

为了在最具信息性的特征上划分节点,需要定义一个目标函数来优化树的学习算法,即最大化每次划分的信息增益,公式如下:
[IG(D_p, f) = I(D_p) - \sum_{j=1}^{m} \frac{N_j}{N_p} I(D_j)]
其中,(f) 是用于划分的特征,(D_p) 和 (D_j) 分别是父节点和第 (j) 个子节点的数据集,(I) 是杂质度量,(N_p) 是父节点的训练示例总数,(N_j) 是第 (j) 个子节点的示例数。

大多数库(包括 scikit-learn)实现的是二叉决策树,此时信息增益公式为:
[IG(D_p, f) = I(D_p) - \frac{N_{left}}{N_p} I(D_{left}) - \frac{N_{right}}{N_p} I(D_{right})]

1.3 常见的杂质度量

二叉决策树常用的三种杂质度量或划分标准是基尼杂质((I_G))

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值