特征选择-熵和互信息

1、熵

一个离散型的随机变量X的熵H(X)定义为

熵常用以2为底的对数,则熵的单位用比特(bit)进行表示。

以e为底的对数,则熵的单位用nat表示

熵可以看做是随机变量平均不确定度的度量。

 

2、互信息定义(mutual information)

它是一个随机变量包含另一个随机变量信息的度量。

考虑两个随机变量X和Y,它们的联合概率密度函数为p(x,y),其边际概率密度函数分别为p(x)和p(y),

互信息I(X;Y)为联合分布p(x,y)和乘积分布p(x)p(y)之间的相对熵。

应用到文本分析领域:

e_{t}:文本包含项目t的时候该值为1,不包含则该值为0

e_{c}:文本属于某个分类该值为1,否则为0

※如果x,y独立,则p(x,y)=p(x)*p(y),则互信息值为0,说明x,y相关是成立的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值