信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。
计算公式
给定的样本集X的信息熵的公式:
e
n
t
r
o
p
y
=
−
∑
i
=
1
C
p
i
l
o
g
2
(
p
i
)
entropy = -\sum_{i=1}^{C} p_{i} log_{2} (p_{i})
entropy=−i=1∑Cpilog2(pi)
参数的含义:
C:样本集X的分类数。
pi:X中第i类元素出现的概率
信息熵越大表明样本集X分类越分散,信息熵越小则表明样本集X分类越集中。当X中C个分类出现的概率一样大时(都是 1 / C 1/C 1/C),信息熵取最大值 l o g 2 ( C ) log_2(C) log2(C)。当X只有一个分类时,信息熵取最小值0。
电商搜索领域的应用:
商品类目下的品牌敏感度。(用户行为品牌越集中,熵越小,品牌敏感度越高)
用户搜索query的集中度。(用户query越集中,熵越小,说明搜索流量越聚集)
others:
相对熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用于衡量两个概率分布之间的差异。