目录
C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。
所以要介绍C4.5算法,就要把ID3,以及ID3中设计的熵的概念一起进行讲解。
关于熵的概念在溯源探幽--熵的世界文章中做了很详细的介绍,所以这里大致过一下。
一、熵的认识
1、熵的概念
熵:是表示随机变量不确定性的度量,熵的取值越大,随机变量的不确定性也越大。
设X是一个取有限个值的离散随机变量,其概率分布为
P(X=xi)=pi, i=1,2,⋯,n
熵计算公式:H(X)=- ∑ pi * logpi,i=1,2, ... , n
一个栗子: A集合[1,1,2,2,2,2,2,2,2,2]
B集合[1,1,2,3,4,5,6,7,8,9]