信息熵和Gini指数
信息熵
用于衡量不确定性

条件熵

信息增益
表达成熵和条件熵的差,代表在一定条件下,信息不确定性减少的程度

决策树的构建目标:找到令信息增益最大的路径
eg.

Gini(基尼)指数
又叫基尼不纯度,表示在样本集合中,一个随机选中的样本被分错的概率。

回归树
一些概念:
- 解决回归问题的决策树,预测值一般是叶子节点的均值
- 回归树的分支标准:标准方差

- Coefficient of Variation(CV)变化系数,用于决定是否进一步分支
分支停止条件:
- 当某个分支的变化系数小于某个值
- 当前节点包含元素个数小于某个值