各种熵

本文介绍了信息论的基本概念,包括自信息量、熵、条件熵、联合熵等,并详细阐述了交叉熵、KL距离及其在特征选择中的应用,同时探讨了互信息的概念及在特征选择中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

自信息量I(x)=-log(p(x)),其他依次类推。

离散变量x的熵H(x)=E(I(x))=-xp(x)lnp(x)

连续变量x的微分熵H(x)=E(I(x))=-p(x)lnp(x)dx

条件熵H(y|x)=-p(x,y)lnp(y|x)dydx

两个变量X和 Y 的联合熵定义为:

H(X,Y)=-p(x,y)lnp(x,y)dxdy
H(x,y)=H(y|x)+H(x)
若x,y独立,H(x,y)=H(x)+H(y),此时对x的了解不能增进对y的了解。

交叉熵Cross Entropy

H(p;q)=-p(x)lnq(x)dx

很少见,通常使用KL距离

Kullback-Leibler divergence:KL(p||q)=-p(x)lnq(x)dx(p(x)lnp(x)dx)=H(p)+H(p;q)=-p(x)lnq(x)p(x)dx

p=q时,KL(p||q)=0,H(p;q)=H(p)

交叉熵与kl距离相差一个H(p)

当p未知而q已知时,通过改变KL中的p、q的位置,可以减少未知量,便于计算相似度。

交叉熵是一种万能的Monte-Carlo技术,常用于稀有事件的仿真建模、多峰函数的最优化问题。交叉熵技术已用于解决经典的旅行商问题、背包问题、最短路问题、最大割问题等。这里给一个文章链接:A Tutorial on the Cross-Entropy Method

交叉熵算法的推导过程中又牵扯出来一个问题:如何求一个数学期望?常用的方法有这么几种:

概率方法,比如Crude Monte-Carlo
测度变换法change of measure
偏微分方程的变量代换法
Green函数法
Fourier变换法
在实际中变量X服从的概率分布h往往是不知道的,我们会用g来近似地代替h—-这本质上是一种函数估计。有一种度量g和h相近程度的方法叫 Kullback-Leibler距离,又叫交叉熵,通常选取g和h具有相同的概率分布类型(比如已知h是指数分布,那么就选g也是指数分布)—-参数估计,只是pdf参数不一样(实际上h中的参数根本就是未知的)。

基于期望交叉熵的特征项选择

CE(w)=ip(ci|w)logp(ci|wp(ci

p(ci|w)表示在出现词条w时文档属于类别ci的概率。

交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。

互信息Mutual Informantion

yj对xi的互信息定义为后验概率与先验概率比值的对数。

I(x,y)=logp(x|y)p(x)=I(x)I(x|y)

互信息越大,表明y对于确定x的取值的贡献度越大。

系统的平均互信息

I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)

可见平均互信息就是信息增益!

I(X,Y)=KL(p(x,y)||p(x)p(y))=-p(x,y)ln(p(x)p(y)p(x,y))dxdy

互信息在特征选择中的应用

词条w与类别ci的互信息为

MI(w,c)=logp(w|c)p(w)

p(w)表示出现w的文档点总文档数目的比例,p(w|ci)表示在类别ci中出现w的文档点总文档数目的比例。

对整个系统来说,词条w的互信息为

MIavg(w,c)=ip(c)logp(w|c)p(w)

最后选互信息最大的前K个词条作为特征项。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值