1.信息熵
熵( E n t r o p y Entropy Entropy)这个概念最早起源于物理学,在物理学中是用来度量一个热力学系统的无序程度 ,而在信息学里面,熵是对不确定性的度量。在1948年,香农引入了信息熵,将其定义为离散随机事件出现的概率,一个系统越是有序,信息熵就越低,反之一个系统越是混乱,它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。
假设变量 X X X 的随机取值为 X X X={ x 1 , x 2 , x 3 . . . , x n x_1,x_2,x_3...,x_n x1,x2,x3...,xn},每一种取到的概率分别是 P x P_x Px= { p 1 , p 2 , p 3 , . . . p n p_1,p_2,p_3,...p_n p1,p2,p3,...pn },则变量 X X X 的熵为:
H ( X ) = − ∑ n = 1 n p i log 2 p i H(X)=-∑_{n=1}^n{p_i\log_2p_i} H(X)=−n=1∑npilog2pi
意思就是一个变量的变化情况越多,那么信息熵越大越不稳定。
2.信息增益
信息增益 ( I G : IG: IG:Information Gain)针对单个特征而言,即看一个特征 t t t,系统有它没有它时信息熵之差。下面是 w e k a weka weka中的一个数据集,关于不同天气是否打球的例子。特征是天气, l a b e l label label是是否打球。
outlook | temperature | humidity | windy | play |
---|---|---|---|---|
sunny | hot | high | FALSE | no |
sunny | hot | high | TRUE | no |
overcast | hot | high | FALSE | yes |
rainy | mild | high | FALSE | yes |
rainy | cool | normal | FALSE | yes |