信息、信息熵、信息增益、增益率及基尼系数的概念总结
信息
信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则第k类的信息可以定义如下:
信息熵
信息熵是用来度量不确定性,当熵越大,k的不确定性越大,反之越小
假定当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为:
信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则第k类的信息可以定义如下:
信息熵是用来度量不确定性,当熵越大,k的不确定性越大,反之越小
假定当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为: