树模型的思想主要是每次选择具有分类能力强的特征作为树分裂的节点,重复该步骤直到在某一节点上的数据都属于同一类别时停止。由于在选择分类能力强的特征时,有不同的选择标准,因此出现了不同种树的模型。
ID3
在ID3算法中,通过信息增益来衡量特征的分类能力。在介绍熵之前首先介绍下自信息。相对于用概率表示该事件发生确定性的度量,自信息是该事件发生不确定性的度量,或者表示为该事件发生所携带信息量的大小。信息量越大,该事件发生的不确定性也就越大。用公式表示为:
I ( x i ) = − l o g p i I(x_i)=-logp_i I(xi)=−logpi
其中事件 x i x_i xi发生的概率 p i p_i pi, I ( x i ) I(x_i) I(xi)表示事件 x i x_i xi发生的自信息。其函数图像为:

熵是自信息的期望,其公式为:
H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^np_ilogp_i H(X)=−i=1∑npilogpi
举例来说,假设一个信号源发射信号,其发射信号1的概率为 p 1 = 1 2 p_1=\frac{1}{2} p1=21