信息、信息熵、信息增益、增益率及基尼系数的概念总结
信息
信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则第k类的信息可以定义如下:
信息熵
信息熵是用来度量不确定性,当熵越大,k的不确定性越大,反之越小
假定当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为:
本文总结了机器学习中重要的概念,包括信息、信息熵、信息增益、增益率和基尼系数。信息熵用于度量不确定性,信息增益衡量特征选择性,增益率则是C4.5决策树算法中的改进指标,而基尼系数被CART决策树用于选择划分属性。这些概念在构建决策树模型时起到关键作用。
信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则第k类的信息可以定义如下:
信息熵是用来度量不确定性,当熵越大,k的不确定性越大,反之越小
假定当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为:
2357
3063
785

被折叠的 条评论
为什么被折叠?