决策树,算法的目标是建立分类预测模型或回归预测模型,是一种预测模型,按目标不同可以细分为分类树和回归树,因为在展示的时候,类似于一棵倒置的树而得名。如下图:
基本概念:
根节点:如上图中最上方,一棵决策树只有一个根节点。
中间节点:位于中间的节点,有上有下的节点。
叶节点:没有后续连续的节点叫叶节点,意味着至此为止。
二叉树和多叉树:每个非节点只有两个分支,叫二叉树,多个就叫多叉树,上图是一个二叉树。
图形怎么看:
如上图,先看根节点,它框内写的是Middle 88/258,意思为在总观测数为258个里面,最大的分类是Middle,有88个,下方两个分支,PEG>=0.34的意思是,左边的分支是PEG>=0.34,右边的分支自然是PEG<0.34(有的图不会显示出来)。从左边的分支看下去,把PEG划分之后,PEG>=0.34的所有观测有143个,其中仍然是Middle分类最多,有78个,然后再按照分支下的分支方法,PEG>=0.34里面,再把它分为>=0.68和<0.68两类,于是在>=0.68这类里面,共有53个,其中最大的是High分类,有52个,这个已经没有必要再分下去了,所以它成为了叶节点。
核心问题
决策树的生长:决策树的本质是分类,就是从根节点开始,一步步区分不同的类别,从而达到最后不能再细分的过程,而这个过程就是生长过程,分支的准确,使差异下降显著,意思即为,假如你有一块奥得奥,一刀切下去,使得切开的两块差异性最大,正确的方法是从夹心层掰开,黑的和黄的两块饼干就分开了,不是么?
R语言 决策树--预测模型
最新推荐文章于 2024-10-05 23:59:02 发布