设S是s个数据样本的集合,假定类别标签具有m个不同的值,定义m个不同类Ci(i = 1,2,...,m),设Si是Ci的样本数,对于一个给定的样本分类所需要的信息熵由下式给出: pi是任意样本属于Ci的概率,并用pi = si/|S| 估计