决策树及其集成模型的深入解析
1. 决策树的可视化与分析
决策树的可视化能让我们深入了解算法的预测机制,对于非专业人士来说,是一种易于解释的机器学习算法示例。不过,即使是深度为 4 的树,理解起来也可能有一定难度,而深度更深(如深度为 10)的树则更难掌握。
为了更好地检查决策树,我们可以找出大部分数据实际经过的路径。图中每个节点显示的 n_samples 表示该节点中的样本数量,而 value 则提供了每个类别的样本数量。
以一个决策树为例,当沿着右侧分支, texture_error <= 0.4732 时,会形成一个节点,其中只有 8 个良性样本和 134 个恶性样本。该侧树的其余部分会进行更精细的区分,以分离出这 8 个剩余的良性样本。在初始分割时向右的 142 个样本中,几乎所有样本(132 个)最终都位于最右侧的叶子节点。
当在根节点向左,即 texture_error > 0.4732 时,会得到 25 个恶性样本和 259 个良性样本。几乎所有的良性样本最终都位于从右数第二个叶子节点,而其他大多数叶子节点只包含很少的样本。
1.1 特征重要性
除了查看整个决策树,我们还可以通过一些有用的统计信息来总结决策树的工作原理,其中最常用的是特征重要性。特征重要性为每个特征赋予一个介于 0 到 1 之间的数值,0 表示“完全未使用”,1 表示“完美预测目标”,且所有特征的重要性之和为 1。
以下是一个特征重要性的示例代码:
超级会员免费看
订阅专栏 解锁全文
1155

被折叠的 条评论
为什么被折叠?



