关于信息熵的指标

信息熵

信息论中的熵,又叫信息熵,用来衡量一个随机变量的不确定程度。熵越大,不确定性越大。

H(X)=E[I(xi)]=n1NP(xi)log(P(xi)) H ( X ) = E [ I ( x i ) ] = − ∑ n − 1 N P ( x i ) l o g ( P ( x i ) )

交叉熵

如果一个随机变量X服从p(x)分布,q(x)用于近似p(x)的概率分布,那么随机变量和模型q之间的交叉熵定义为:

H(X,q)=xp(x)log(q(x)) H ( X , q ) = − ∑ x p ( x ) l o g ( q ( x ) )

  • 交叉熵本质上是用一个猜测的分布的编码方式去编码其真实分布,得到的平均编码长度或者信息量(最短的平均编码长度 = 信源的不确定程度 / 传输的表达能力,传输的表达能力为 log2n l o g 2 n ,n为类别数)。
  • 交叉熵相当于衡量两个编码方式之间的差值,因为只有当猜测的分布越接近于真实分布,则其值越小。
  • 交叉熵损失函数是机器学习常用的一个损失函数,目标是让H(X,q)尽可能的小。对于二分类问题, L=iyilog(p(xi))+(1yi)log(1p(xi)) L = − ∑ i y i l o g ( p ( x i ) ) + ( 1 − y i ) l o g ( 1 − p ( x i ) )

相对熵(KL散度)

相对熵是用来衡量两个分布之间的相似度。当两个随机分布完全相同,相对熵为0。

D(P||D)=H(p,q)H(p)          =i=1npilog(qi)(i=1npilog(pi))  =i=1npilogpiqi D ( P | | D ) = H ( p , q ) − H ( p )                     = − ∑ i = 1 n p i l o g ( q i ) − ( − ∑ i = 1 n p i l o g ( p i ) )     = ∑ i = 1 n p i l o g p i q i

  • 相对熵是用交叉熵减去真实分布的信息熵,表示用估计分布计算的平均编码长度(Define)比最短平均编码长度长多少,因此交叉熵=信息熵+相对熵

联合熵

联合熵表示一对随机变量(二维),平均下来所需的信息量。

H(X,Y)=xXyYp(x,y)log(p(x,y)) H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g ( p ( x , y ) )

条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下,随机变量Y的不确定性(期望值)。

H(Y|X)=xXp(x)H(Y|X=x)      =xXp(x)yYp(y|x)logp(y|x)    =xXyYp(x,y)logp(y|x) H ( Y | X ) = ∑ x ∈ X p ( x ) H ( Y | X = x )             = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y | x ) l o g p ( y | x )         = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( y | x )

条件熵=联合熵-单独的熵 即H(Y|X)=H(X,Y)-H(X),证明如下:
H(X,Y)=x,yp(x,y)logp(x,y)     =x,yp(x,y)log(p(y|x)p(x))          =x,yp(x,y)logp(y|x)x,yp(x,y)logp(x)     =H(Y|X)x,yp(x,y)logp(x)       =H(Y|X)xyp(x,y)logp(x)       =H(Y|X)xlogp(x)yp(x,y)     =H(Y|X)x(logp(x))p(x)    =H(Y|X)xp(x)logp(x) =H(Y|X)+H(X) H ( X , Y ) = − ∑ x , y p ( x , y ) l o g p ( x , y )           = − ∑ x , y p ( x , y ) l o g ( p ( y | x ) p ( x ) )                     = − ∑ x , y p ( x , y ) l o g p ( y | x ) − ∑ x , y p ( x , y ) l o g p ( x )           = H ( Y | X ) − ∑ x , y p ( x , y ) l o g p ( x )               = H ( Y | X ) − ∑ x ∑ y p ( x , y ) l o g p ( x )               = H ( Y | X ) − ∑ x l o g p ( x ) ∑ y p ( x , y )           = H ( Y | X ) − ∑ x ( l o g p ( x ) ) p ( x )         = H ( Y | X ) − ∑ x p ( x ) l o g p ( x )   = H ( Y | X ) + H ( X )


这里写图片描述

互信息

互信息表示一个联合分布中的两个信息的纠缠程度或者互相影响那部分的信息量

I(X,Y)=H(X)+H(Y)H(X,Y) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y )

I(X,Y)=H(Y)H(Y|X)=xXyYp(x,y)logp(x,y)p(x)p(y) I ( X , Y ) = H ( Y ) − H ( Y | X ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y )

决策树中的信息增益就是互信息!


这里写图片描述

参考:
https://www.cnblogs.com/kyrieng/p/8694705.html
https://blog.youkuaiyun.com/haolexiao/article/details/70142571
https://blog.youkuaiyun.com/u014422406/article/details/77899293

### 影像融合的评价指标——信息熵 #### 1. 信息熵的概念 信息熵(Information Entropy, IE)是一种衡量图像信息量的重要指标。它反映了图像中像素灰度分布的不确定性程度,通常用于描述图像所携带的信息丰富程度[^1]。 对于一幅大小为 \(M \times N\) 的灰度图像 \(I(x,y)\),其信息熵可以定义如下: \[ H(I) = -\sum_{k=0}^{L-1} p_k \log_2(p_k) \] 其中: - \(p_k\) 是第 \(k\) 级灰度值的概率密度函数; - \(L\) 表示图像的最大灰度级数(通常是 256 对于 8-bit 图像)。 如果某幅图像具有较高的信息熵,则说明该图像包含了更多的细节和复杂结构;反之,较低的信息熵则表明图像较为简单或均匀[^2]。 #### 2. 应用场景 在影像融合领域,信息熵被广泛应用于评估融合效果的好坏。具体来说,当两幅或多幅源图像经过某种算法处理得到一张融合后的目标图像时,可以通过比较这些原始输入数据以及最终输出结果之间各自对应位置处各像素点取值情况来判断整个过程是否有效提升了整体视觉表现力或者保留了更多有用特征等内容特性[^3]。 例如,在遥感技术当中经常需要用到不同波段拍摄所得照片进行叠加分析以便更好地识别地面物体类别属性等等操作之前先要确保每一步骤都能够最大程度保持甚至增强原有各个单独部分里头存在的关键线索而不至于丢失掉任何重要方面因此就需要引入诸如上面提到过的这种量化标准来进行辅助决策支持工作从而达到预期目的同时还能进一步优化后续环节设置参数调整等方面的工作效率提升水平等多方面的综合考量因素共同作用下才能取得理想成果[^4]。 ```python import numpy as np from scipy.stats import entropy def calculate_entropy(image): hist, _ = np.histogram(image.flatten(), bins=range(257)) probabilities = hist / image.size return entropy(probabilities, base=2) # Example usage with a grayscale image array `img` entropy_value = calculate_entropy(img) print(f"The calculated entropy of the given image is {entropy_value}") ``` 此代码片段展示了如何使用 Python 来计算给定灰度图片的数据集上的信息熵数值[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值