信息论的基本想法是:一件不太可能的事发生,要比一件非常可能的事发生,提供更多的信息。
理解:
1.非常可能发生的事件信息量要比较少,并且极端情况下,一定能够发生的事件应该没有信息量。
2.比较不可能发生的事件具有更大的信息量。
3.独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。
信息熵:用于对整个概率分布中的不确定性总量进行量化
自信息(self-information)是一种量化以上性质的函数
相对熵:KL散度,是一种量化两种概率分布P和Q之间差异的方式:
我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息。
实际上我们就是用相对熵来衡量所采用的概率分布和样本自身的概率分布的差距
从相对熵可以看出来哪个分布保留了更多的原始数据分布的信息
相对熵表达式1:
其中p为原有数据的分布,q为采用的相近的分布
可见:
K-L散度其实是数据的原始分布p和近似分布q之间的对数差值的期望,可以看成是函数的期望!其中函数就是pq的对数差值
相对熵表达式2:
求解出来的D表示损失,损失越小,表示两者之间相似程度也就越高
相对熵的应用
相对熵可以衡量两个随机分布之间的差异(注意,不能把KL散度理解成距离!只是说距离,并不是真正的距离,注意理解)
当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算KL散度就行了。另外,在多指标系统评估中,指标权重分配是一个重点和难点,通过相对熵可以处理。