CART(Classification and Regression Tree)算法是一种构造决策树的算法。它是以基尼指数作为选择划分属性的评价标准,与信息熵类似,基尼指数越小意味着数据的纯度越高
1.基尼值
基尼值定义为:
其中:
D —— 样本集合
Pk —— 第k类样本所占比例(k取1,2,…,|y|)
基尼值代表了从样本集合中随机选取两个样本属于不同类别的概率,换句话说我们希望这个概率应该是越小越好,因为越小取到相同类别的概率就越大,数据也就更纯净
2.基尼指数
基尼指数定义为:
其中:
a —— 样本中的一个属性
D —— 样本集合
Dv ——实际属性值v对应的样本集合
V —— 属性a对应的实际属性值个数
v —— 某一个实际属性值计数
Gini(D) —— D的基尼值
基尼指数代表样本集合选择一个属性划分后纯度的大小,基尼指数越小数据就越纯净,选择该属性作为划分依据就越好。
我们最终无论通过CART分类树还是回归树都要找寻一个最小的基尼指数。
其中:
a* —— 最小基尼指数对应的属性
A —— 所有候选的属性
参考文献:周志华.机器学习[M].北京:清华大学出版社,2016.