算法原理
从逻辑角度(左图),一堆if else语句的组合;从几何角度,根据某种准则划分特征空间
最终目的:将样本越分越“纯”
ID3决策树
主要是基于信息熵的
a的取值拿高富哥举例就是,单看身高可以分为身高高于180的和低于180的两个集合;一个集合可能信息熵很高,但是分成多块后,条件熵总和可能,因为每个块里可能很“纯”,还是看下面的图:
因此就有了下面的概念:
C4.5决策树:

CART决策树
从逻辑角度(左图),一堆if else语句的组合;从几何角度,根据某种准则划分特征空间
最终目的:将样本越分越“纯”
主要是基于信息熵的
a的取值拿高富哥举例就是,单看身高可以分为身高高于180的和低于180的两个集合;一个集合可能信息熵很高,但是分成多块后,条件熵总和可能,因为每个块里可能很“纯”,还是看下面的图:
因此就有了下面的概念: