决策树的构建与属性信息度量
1. 决策树的归纳
- 分治法构建决策树
- 手动创建决策树时,以根节点测试形状(shape)属性为例,训练集中形状有圆形、三角形和正方形三种结果。每种结果对应一个从根节点出发的分支,分别得到不同的示例子集。如形状为圆形的子集 (T_C = {e1, e2, e8}),三角形的子集 (T_T = {e4}),正方形的子集 (T_S = {e3, e5, e6, e7})。
- 对于 (T_C) 中的所有示例都是正例,该分支指向标记为“pos”的叶子节点;(T_T) 中的示例为负例,对应分支指向标记为“neg”的叶子节点。而 (T_S) 包含正负两类示例,需要在该分支末端进行另一个测试,如填充大小(filling - size),将 (T_S) 进一步划分为 (T_{S - S} = {e3, e6})(填充大小为小)和 (T_{S - B} = {e5, e7})(填充大小为大),这两个子集分别为正例和负例,对应分支指向相应标记的叶子节点。
- 这种从根节点开始,每次测试将训练集划分为不相交子集,直到每个子集的示例都属于同一类的方法,被称为分治法。
- 决策树的多样性
- 在上述过程中,选择形状和填充大小属性构建了如图 6.1b 所示的决策树。实际上,还可以选择其他属性作为根节点测试,如外壳大小(crust - size)或填充大小,并且在较低层次的节点考虑不同的测试选项,从而创建出许多不同的决策树。
超级会员免费看
订阅专栏 解锁全文
1149

被折叠的 条评论
为什么被折叠?



