决策树与随机森林并不能算得上是一种模型,它只能说是一种方法。常见的决策树算法有C4.5、ID3和CART。先来看一些预备知识。
信息、熵、信息增益、基尼系数
信息
通信领域的里程碑式的人物香农提出:信息是用来消除随机不确定性的东西。这句话你可以倒过来理解:用来消除随机不确定性的东西才叫信息。
对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息可以定义为:
熵
熵是约翰.冯.诺依曼建议使用的命名,熵=信息的期望值:
熵用来度量不确定性的,当熵越大,X=xi的不确定性越大。
信息增益
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好:
原有树的熵 H(D) 增加了一个分裂节点