决策树:原理、构建与应用
1. 决策树简介
决策树是一种实现分治策略的分层数据结构,是一种高效的非参数方法,可用于分类和回归任务。在参数估计中,我们会为整个输入空间定义一个模型,并从所有训练数据中学习其参数,然后对任何测试输入使用相同的模型和参数集。而在非参数估计中,我们将输入空间划分为局部区域,通过距离度量(如欧几里得范数)来定义这些区域,对于每个输入,使用该区域内训练数据计算得到的相应局部模型。
决策树作为一种用于监督学习的分层模型,通过一系列递归分割,能在较少的步骤内确定局部区域。它由内部决策节点和终端叶子节点组成。每个决策节点 m 实现一个测试函数 fm(x) ,其离散结果标记着各个分支。给定一个输入,在每个节点处应用测试,并根据结果选择一个分支,这个过程从根节点开始,递归进行,直到到达叶子节点,此时叶子节点中的值即为输出。
决策树也是一种非参数模型,因为我们不假设类密度具有任何参数形式,并且树的结构不是预先固定的,而是在学习过程中根据数据中问题的复杂性来生长、添加分支和叶子节点。
决策树具有诸多优点,其分层决策的方式能快速定位覆盖输入的区域。例如,在最佳情况下,如果决策是二元的,每次决策能消除一半的情况。若有 b 个区域,在最佳情况下,通过 log2 b 次决策就能找到正确的区域。此外,决策树还具有良好的可解释性,可转换为一组易于理解的 IF - THEN 规则,这使得它在实际应用中非常受欢迎,有时甚至比更准确但难以解释的方法更受青睐。
超级会员免费看
订阅专栏 解锁全文
842

被折叠的 条评论
为什么被折叠?



