各种熵

最新推荐文章于 2022-08-09 20:16:36 发布

原创最新推荐文章于 2022-08-09 20:16:36 发布 · 1.8k 阅读

0 ·

CC 4.0 BY-SA版权

数据分析专栏收录该内容

9 篇文章

订阅专栏

本文介绍了信息论的基本概念，包括自信息量、熵、条件熵、联合熵等，并详细阐述了交叉熵、KL距离及其在特征选择中的应用，同时探讨了互信息的概念及在特征选择中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自信息量I(x)=-log(p(x))，其他依次类推。

离散变量x的熵H(x)=E(I(x))=- $\sum\limits_{x}{p(x)lnp(x)}$

连续变量x的微分熵H(x)=E(I(x))=- $\int{p(x)lnp(x)dx}$

条件熵H(y|x)=- $\int\int{p(x,y)lnp(y|x)dydx}$

两个变量X和 Y 的联合熵定义为：

H(X,Y)=- $\int\int{p(x,y)lnp(x,y)dxdy}$
H(x,y)=H(y|x)+H(x)
若x，y独立，H(x,y)=H(x)+H(y),此时对x的了解不能增进对y的了解。

交叉熵Cross Entropy

H(p;q)=- $\int{p(x)lnq(x)dx}$

很少见，通常使用KL距离

Kullback-Leibler divergence:KL（p||q）=- $\int{p(x)lnq(x)dx}-(-\int{p(x)lnp(x)dx})$ =H(p)+H(p;q)=- $\int{p(x)ln{\frac{q(x)}{p(x)}}dx}$

p=q时，KL(p||q)=0,H(p;q)=H(p)

交叉熵与kl距离相差一个H(p)

当p未知而q已知时，通过改变KL中的p、q的位置，可以减少未知量，便于计算相似度。

交叉熵是一种万能的Monte-Carlo技术，常用于稀有事件的仿真建模、多峰函数的最优化问题。交叉熵技术已用于解决经典的旅行商问题、背包问题、最短路问题、最大割问题等。这里给一个文章链接：A Tutorial on the Cross-Entropy Method

交叉熵算法的推导过程中又牵扯出来一个问题：如何求一个数学期望？常用的方法有这么几种：

概率方法，比如Crude Monte-Carlo
测度变换法change of measure
偏微分方程的变量代换法
Green函数法
Fourier变换法
在实际中变量X服从的概率分布h往往是不知道的，我们会用g来近似地代替h—-这本质上是一种函数估计。有一种度量g和h相近程度的方法叫 Kullback-Leibler距离，又叫交叉熵,通常选取g和h具有相同的概率分布类型（比如已知h是指数分布，那么就选g也是指数分布）—-参数估计，只是pdf参数不一样（实际上h中的参数根本就是未知的）。

基于期望交叉熵的特征项选择

CE(w)= $\sum\limits_{i}p(c_{i}|w)log\frac{p(c_{i}|w}{p(c_{i}}$