决策树的思想:就是寻找最纯净的划分方法。
- 纯度的另一面就是不纯度。不纯度的选取有很多种方法,每种方法形成了不同的决策树算法。
- ID3算法使用了信息增益 作为不纯度,
C4.5算法使用了信息增益率作为不纯度。
CART算法使用了基尼系数作为不纯度(分类的枝叶只有两个,形成了二叉树)
决策树要达到最纯净的划分的目标要干两件事,建树和剪枝。
上图是 根据14条记录,分析是否买电脑的事件。
1.假设不按任何属性划分,分析原始数据的信息熵 : info(D)
买电脑的有 9个,不买的有 5个
所以info(D) :
2.按照年龄划分,
youth 有5个 ,买的有2个 不买的有3个
middle_aged 有4个,买的有4个 ,不买的有0个
senior 有5个,买的有3个,不买的有2个
所以
所以 age 的信息获取量是:
总结: