决策树是最常见的有监督学习模型,常被应用到分类和回归分析中。
在学习决策树的过程中,cart中提到了Gini系数和Gini指数的计算,下面进行总结。
一、基尼指数
- 定义:基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。
- 注意: Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。
- 即 基尼指数(基尼不纯度)= 样本被选中的概率 * 样本被分错的概率

如表:
| 年龄 | 长相 | 工资 | 写代码 | 类别 |
---|
小A | 老 | 帅 | 高 | 不会 | 不见 |
小B | 年轻 | 一般 | 中等 | 会 | 见 |
小C | 年轻 | 丑 | 高 | 不会 | 不见 |
小D | 年轻 | 一般 | 高 | 会 | 见 |
小L | 年轻 | 一般 | 低 | 不会 | 不见 |
有时间补上