决策树基本思想

从流域到海域

已于 2023-03-18 18:01:13 修改

阅读量719

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习与机器学习文章标签：决策树算法机器学习

于 2021-11-03 22:27:02 首次发布

本文链接：https://blog.youkuaiyun.com/Solo95/article/details/121132012

深度学习与机器学习专栏收录该内容

79 篇文章

订阅专栏

决策树是基本的机器学习分类算法，它的输入是一组带标签的数据，输出是一颗决策树，树的非叶结点代表判断逻辑，叶子结点代表分类子集。

决策树算法原理是通过训练数据形成if-then的判断结构。从树的根节点到叶节点的每一条路径构成一个判断规则。我们需要选择合适的特征作为判断节点，可以快速的分类，减少决策树的深度。最理想的情况是，通过特征的选择把不同类别的数据集贴上对应类标签，树的叶子节点代表一个集合，集合中数据类别差异越小，其数据纯度越高。

输入：训练集 $D=\{(x_1,y_1), (x_2, y_2),...,(x_3,y_3)\}$ ，属性集 $A=\{a_1,a_2,...,a_n\}$
过程：抽象为函数TreeGenerate(D,A)
注：最优划分属性即为能把最多结点分为一类的属性

1. 生成根结点node
2. if D中样本全部属于某一类C，then
3.    标记根节点为C类叶子结点；return
4. endif
5. if A = 空集 or D样本在A上取值相同  then
6. 	标记根结点为D中样本数最多的结点；return
7. endif
8. 从A中选取最优划分属性a*
9. for a*的每一个值a*v do
10.	    为node生成一个分支Dv，表示D中在a上取值为a*v的所有的样本的子集
11. 	if Dv为空 then
12.			将分支结点标记为叶子结点，其类别标记为D中样本最多的类；return
13.		else 
14.			以TreeGenerate(Dv,  A\{a*})为分支结点递归
15.