1.信息熵 信息增益 信息增益率 基尼系数
在信号中每种信号出现的可能为pi (对应到最简单的二分类为 0 出现的可能为p0,1出现的可能为p1) 我们使用-log pi 来表示这种不确定性 ,那么对于所有信号的不确定性 很明显需要使用他们的期望来表示 即 -∑pilog(pi) 称为信息熵
信息增益就是选取某一特征作为树模型的分裂条件之后 将原始数据分为若干部分 若干部分的信息熵之和相比于分裂前信息熵减小的部分
因为信息增益会受到特征取值种类的影响 ,特征取值越多 意味着确定性越高 如果特征种类取值极端情况每一个特征种类只有一个取值 那么最终一定能够降到信息熵为0的情况,这样会导致决策树分支过多 的情况 因此引入了Split Information项进行惩罚
基尼系数
Cart 树 是一个二叉树 可用于分类和回归 分类时使用gini指数作为标准,gini系数代表数据集的纯度 值越小 纯度越高(基尼系数和信息熵的区别为信息熵是用pi * log pi 而基尼系数是用 pi * pi)
Question 2 分类树和回归树的区别
分类树和回归树节点划分的依据不同 分类树使用信息增益,信息增益率 基尼指数进行节点划分