决策树分类数据挖掘

最新推荐文章于 2024-01-17 18:56:16 发布

原创

最新推荐文章于 2024-01-17 18:56:16 发布 · 3.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#决策树

本文详细介绍了决策树的分类方法，包括基本概念、原理和构建过程，强调了信息增益法在属性分裂标准中的作用。通过SSAS对三国数据进行决策树分析，展示如何在实际中运用决策树进行数据分类。

※写在前面的思考：
Ａ数据是怎么分类的？
Ｂ如何选择分类的属性？
Ｃ什么时候停止分裂？

①决策树

1. 决策树分类方法

从数据中生成分类器的一个有效的方法就是生成一个决策树。是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树分类方法采用自顶向下的递归形式（实质就是分而治之），在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该结点向下的分支，在决策树的叶节点得到结论。所以从决策树的根到叶节点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式的规则。决策树的非叶节点表示属性；节点向下的分支对应属性的属性值；叶节点表示类别。分类类别为未知的新实例时可以从这颗树的根节点开始，测试这个节点对应的属性，按照给定实例的属性的属性值沿着树枝向下移动，这个过程在新节点为根的子树上重复，直到进行到叶节点得到新实例的类别为止。

2. 基本概念与原理

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
他属于监督学习。所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。
（Ａ）决策树采用自顶向下的贪婪算法，在每个节点选择分类效果最好的属性（分裂属性的数据类型分为离散型和连续性两种情况，对于离散型的数据，按照属性值进行分裂，每个属性值对应一个分裂节点；对于连续性数据，一般性的做法是对数据按照该属性进行排序，再将数据分成若干区间，如[0,10]、[10,20]、[20,30]…，一个区间对应一个节点，若数据的属性值落入某一区间则该数据就属于其对应的节点。）进行分类，重复此过程，直到这棵树能准确的分类训练样本，或者所有的属性都被使用过。
决策树构造完成后通常需要进行剪枝操作，以限制决策树的规模来提高预测精度。核心问题是在每个节点选取要测试的属性，以及对决策树进行剪枝处理。
（Ｂ）树的建立一般都是通过在内部节点选择一个最优的测试属性对训练及反复的进

最低0.47元/天解锁文章