信息熵(Information Entropy)及其在电商搜索领域中的应用

博客介绍了信息熵,它衡量分布的混乱或分散程度,分布越分散熵越大,越集中熵越小。给出了样本集信息熵的计算公式,还阐述了其在电商搜索领域的应用,如商品类目下的品牌敏感度、用户搜索query的集中度,此外还提到了相对熵即KL散度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。

计算公式

给定的样本集X的信息熵的公式:
e n t r o p y = − ∑ i = 1 C p i l o g 2 ( p i ) entropy = -\sum_{i=1}^{C} p_{i} log_{2} (p_{i}) entropy=i=1Cpilog2(pi)

参数的含义:
C:样本集X的分类数。

pi:X中第i类元素出现的概率

信息熵越大表明样本集X分类越分散,信息熵越小则表明样本集X分类越集中。当X中C个分类出现的概率一样大时(都是 1 / C 1/C 1/C),信息熵取最大值 l o g 2 ( C ) log_2(C) log2(C)。当X只有一个分类时,信息熵取最小值0。

电商搜索领域的应用:

商品类目下的品牌敏感度。(用户行为品牌越集中,熵越小,品牌敏感度越高)

用户搜索query的集中度。(用户query越集中,熵越小,说明搜索流量越聚集)

others:

相对熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用于衡量两个概率分布之间的差异。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值