Tensorflow2.* 熵相对熵（KL散度）（交叉熵）互信息（信息增益）代码实现

最新推荐文章于 2024-12-04 18:56:01 发布

老光头_ME2CS

最新推荐文章于 2024-12-04 18:56:01 发布

阅读量1.5k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Tensorflow 学习笔记机器学习 Python 文章标签： tensorflow 深度学习机器学习 python

本文链接：https://blog.youkuaiyun.com/Forrest97/article/details/106535361

这篇博客介绍了如何使用Tensorflow2.*在一维、二维和三维随机变量上实现熵、相对熵（KL散度）和交叉熵的概念，并展示了计算结果，探讨了它们之间的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基础的信息熵理论请参考博文

目录标题

一维随机变量
二维随机变量
三维随机变量

一维随机变量

我们先以最简单的一位随机变量为例，随机定义两组向量表示真实分类标签和预测输出

import tensorflow as tf
y_true=tf.random.normal([100,])
y_true=tf.nn.softmax(y_true)
y_pred=tf.random.normal([100,])
y_pred=tf.nn.softmax(y_pred)

熵

公式
$H(X)=-\sum p(x)\log_{2} p(x)$

H_true = -tf.reduce_sum(y_true * tf.math.log(y_true))
H_pred = -tf.reduce_sum(y_pred * tf.math.log(y_pred))

<tf.Tensor: shape=(), dtype=float32, numpy=4.162502>
<tf.Tensor: shape=(), dtype=float32, numpy=4.2000785>

相对熵（relative entropy）或(Kullback-Leibler)KL散度

公式

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

老光头_ME2CS

关注关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

交叉熵，相对熵（KL散度），互信息（信息增益）及其之间的关系

qq_41978536的博客

04-04

6521

刚刚查了点资料，算是搞清楚了相对熵与互信息之间的关系。在这里记录一下，后面忘记的话可以方便查阅。首先，同一个意思的概念太多也是我开始搞混这些概念的原因之一。首先说一下编码问题：最短的平均编码长度 = 信源的不确定程度 / 传输的表达能力。其中信源的不确定程度，用信源的熵来表示，又称之为被表达者，传输的表达能力，称之为表达者表达能力，如果传输时有两种可能，那表达能力就是log22=1log_...

信息论中熵联合熵条件熵 相对熵（KL散度）（交叉熵） 互信息 （信息增益）的定义及关联

Forrest97的博客

06-03

4248

熵（Entropy）的理论知识定义在信息论中，熵被定义为随机变量的平均不确定度的度量。也是平均意义上描述随机变量所需的信息量的度量。设XXX是一个离散型随机变量，其字母表（即概率论中的取值空间）为χ\chiχ。概率密度函数p(x)=Pr(X=x),x∈χp(x)=Pr(X=x), x\in\chip(x)=Pr(X=x),x∈χ，则一个离散随机变量XXX的熵H(X)H(X)H(X)定义为 H(X)=−∑p(x)log⁡2p(x) H(X)=-\sum p(x)\log_{2} p(x) H(X)

参与评论您还未登录，请先登录后发表或查看评论

相对熵算法

05-04

求两数据之间的相对熵，是描述两个概率分布P和Q差异的一种方法。它是非对称的。

KL散度

chuange6363的博客

09-10

296

KL散度（Kullback-Leibler divergence）是描述两个概率分布 P 和 Q 差异的一种方法。在概率论或信息论中，又称相对熵（relative entropy）。它是非对称的，这意味着 D(P||Q) ≠ D(Q||P) 。特别的，在信息论中，D(P||Q) 表示当用概率分...

tensorflow2.x实现两个多元高斯分布之间的KL散度，很重要

weixin_44441131的博客

06-23

2842

0.背景现在假设你要用tensorflow计算两个多元高斯分布之间的KL散度,用闭式解，该如何用tensorflow2.x实现。看到这个公式，相比大家都是头疼的，尤其在训练时候，还要考虑Batch的维度。今天就用tensorflow实现一下。 1. tensorflow矩阵操作 1.1 多维矩阵的乘法一般我们都考虑二维矩阵的乘法，只需要注意两个矩阵的维度即可。但是，有的时候，我们还需要考虑例如Batch_size怎么搞，这是这一小结要解决的问题。 1.1.1 tf.matmul函数点我

信息熵、相对熵、交叉熵公式及tensorflow代码

胖胖大海的博客

08-19

4170

最近在学习卷积神经网络，其中遇到了信息熵和交叉熵，对此理解的一知半解，现记录一下信息熵、相对熵、交叉熵公式及tensorflow代码，供以后参考。假设概率分布中，真实分布：假设分布：信息量公式：信息熵公式： 相对熵公式： 交叉熵公式：借助于tensorflow框架，根据以上几个公式进行试验： #coding:utf-8 """ Created by ch...

kl_divergence 函数源码 tensorlfow python kl散度

论文数据分析辅导,；论文人工智能辅导 huazhongxiaosx

12-04

377

函数首先将输入的 `y_pred` 转换为张量，并确保 `y_true` 和 `y_pred` 的数据类型相同。然后，它使用 `clip` 函数将 `y_true` 和 `y_pred` 的值限制在一个很小的正数（`backend.epsilon()`）和1之间，以避免计算对数时出现数值不稳定。最后，它计算并返回损失值，即 `y_true` 和 `y_pred` 之间的KL散度。计算 `y_true` 和 `y_pred` 之间的Kullback-Leibler散度损失。一个包含损失的 `Tensor`。

信息熵、KL散度(相对熵)、交叉熵通俗理解

m0_67869333的博客

11-18

1305

单调性：不确定度函数f是概率p的单调减函数非负性可加性：,I(A,B)代表一个随机变量包含另一个随机变量信息量的度量在机器学习领域，比如构建决策树等算法时，信息熵用于特征选择，通过计算信息增益来选择最有信息量的特征。非对称性非负性（吉布斯不等式推导）分类问题：在分类任务中，模型需要输出每个类别的概率。交叉熵损失函数能够衡量模型预测的概率分布与真实标签之间的差异，通过最小化交叉熵损失，可以优化模型以提高准确率。图像识别：广泛应用于卷积神经网络（CNN）的训练中。

详解熵， 交叉熵，KL散度，互信息

jiede1的博客

06-06

1708

首先介绍几个信息论中的概念。熵，表示某个概率分布的不确定度： H(x)=−∑p(x)logp(x) H(x) = - \sum p(x) log p(x) H(x)=−∑p(x)logp(x) 联合熵，两个变量联合分布的不确定度： H(x,y)=∑∑p(x,y)logp(x,y) H(x,y) = \sum \sum p(x,y) log p(x,y) H(x,y)=∑∑p(x,y)logp(x,y) 条件熵，在X确定后，Y的不确定度： H(Y∣X)=∑p(xi)H(Y∣X=xi)=∑∑p(x,y)

TensorFlow 2.x 信息+熵+交叉熵

MyArrow的专栏

09-27

771

TensorFlow 2.x 信息+熵+交叉熵1. 信息（Information） 1. 信息（Information）信息：量化单个事件的不确定性信息量：事件发生的概率越小，信息量越大。即当越不可能的事件发生了，我们获取到的信息量就越大事件发生的概率越大，信息量越小。即越可能发生的事件发生了，我们获取到的信息量就越小事件概率信息量(直观) 信息量(数学) A: 硬币头朝上 p(A)=0.5 1 bit (一点信息) -ln( B: 早上太阳升起 p(B) =

基于相对熵的文档聚类组合加权算法

04-07

提出了一种基于相对熵的文档文档聚类加权算法。组合加权被广泛应用于多属性决策（MADM）问题中。但是，存在两个难题来阻碍组合加权在文档聚类中的应用。首先，组合加权是基于主观加权和客观加权的综合。但是，文档中有太多属性，以致于依靠专家手动注释的主观权重是不可行的。其次，文档数据对象可能包含数百个甚至数千个功能。计算组合权重是非常耗时的任务。为了解决这些问题，我们建议通过不区分主观权重和客观权重来简化组合权重。同时，我们选择相对熵方法来减少运行时间。在我们的算法中，我们获得了具有14种组合形式的组合权重集。对真实文档数据的实验表明，无论是在AC / PR / RE度量还是在互信息（MI）度量上，所提出的CWRE-sIB算法均优于原始的顺序信息瓶颈（sIB）算法以及一系列加权算法， sIB算法，是通过将单个加权方案应用于原始sIB算法而构建的。

相对熵等于体相对熵

04-21

互信息

shiyutianming的博客

03-15

414

https://www.cnblogs.com/gatherstars/p/6004075.html

【KL散度原理与实现】

雪丫头的博客

03-30

1836

1. 定义 KL散度( Kullback–Leibler divergence)，又称相对熵（relative entropy)，是描述两个概率分布P和Q差异的一种方法。 2. 特点它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。 3. 意义特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布。KL散度在信息论中有自己明确的物理意义，它是用来度量使用基于Q分布的编码来编码来自P分布的样本平均所需的额外的Bit个数。而其

决策树--熵计算--特征分类

livingbody的专栏

07-11

603

决策树--熵计算--特征分类 # 引入log计算熵 from math import log # 熵越高，则混合的数据也越多 def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, ...

TensorFlow学习笔记（二十三）四种Cross Entropy交叉熵算法实现和应用

11-22

374

交叉熵（Cross-Entropy） 交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。 1.什么是信息量？假设是一个离散型随机变量，其取值集合为，概率分布函数为 p ( x ) = r ( = x ) , x ∈ ，我们定义事件 = x 0 的信息量为： ( x 0 ) = − l o ( p ( x 0 ) ) ，可以理解为，一个事件发生的...

自编码器及其tensorflow实现

几何君的算法天空

09-08

2743

自编码器理论自编码器（AutoEncoder）顾名思义，就是可以用自身的高阶特征编码自己。自编码器实际上也是一种神经网络，它的输入和输入的维度是一样的。借助稀疏编码的思想，目标是使用稀疏的一些高阶特征重新组合来重构自己。早年在关于稀疏编码（Sparse Coding）的研究中，通过对大量黑白风景照片提取16*16的图像碎片分析，研究发现几乎所有的图像碎片都可以由64种正交的边组合得到，并且组合出

KL 散度(python+nlp)

消极的人永远是对的，积极的人选择勇往直前

08-08

1204

KL 散度（Kullback-Leibler divergence），也称为相对熵，是衡量两个概率分布之间差异的一种方式。KL 散度是非对称的，也就是说，P 相对于 Q 的 KL 散度通常不等于 Q 相对于 P 的 KL 散度。

常用损失函数及tf实现

yichudu

05-07

1945

交叉熵可以用来衡量两个概率分布之间的差异, 熵越小表明差异越小, 故可用作损失函数.

信息熵 交叉熵 kl散度 js散度

最新发布

03-24

### 信息熵信息熵是一种衡量随机变量不确定性的指标。对于离散型随机变量 $X$，其概率质量函数为 $P(X)$，则信息熵定义如下： \[ H(X) = - \sum_{i=1}^{n} P(x_i) \log_2(P(x_i)) \] 其中，$P(x_i)$ 表示事件 $x_i$ 发生的概率[^1]。信息熵越高，则系统的不确定性越大；反之亦然。 --- ### 交叉熵 交叉熵是用来衡量两个概率分布之间差异的一种方法，在机器学习中广泛应用于分类任务中的损失计算。假设真实分布为 $P$，预测分布为 $Q$，那么交叉熵可以表示为： \[ H(P, Q) = - \sum_{i=1}^{n} P(x_i) \log(Q(x_i)) \] 这里需要注意的是，交叉熵不仅依赖于真实的概率分布 $P$，还取决于模型预测的概率分布 $Q$。因此，它是评估模型性能的重要工具之一[^2]。 --- ### KL 散度 KL 散度（Kullback-Leibler divergence），也称为相对熵，用于量化两个概率分布之间的差异程度。给定两个概率分布 $P$ 和 $Q$，KL 散度的公式为： \[ D_{KL}(P || Q) = \sum_{i=1}^{n} P(x_i) \log{\frac{P(x_i)}{Q(x_i)}} \] 值得注意的是，KL 散度具有 **非对称性** 和 **非负性** 的特点。即通常情况下 $D_{KL}(P || Q) \neq D_{KL}(Q || P)$[^3]。 --- ### JS 散度 JS 散度（Jensen-Shannon divergence）是对称版本的 KL 散度，解决了 KL 散度不对称的问题。它通过引入中间分布来实现这一点。设 $M = \frac{1}{2}(P + Q)$，则 JS 散度可写成： \[ D_{JS}(P || Q) = \frac{1}{2} D_{KL}(P || M) + \frac{1}{2} D_{KL}(Q || M) \] 由于 JS 散度基于 KL 散度构建，所以它的取值范围在 $[0, 1]$ 内，并且满足对称性和有限性条件。 --- ### 定义区别与联系 | 指标 | 描述 | |------------|------------------------------------------------------------------------------------------| | **信息熵** | 测量单个随机变量本身的不确定性 | | **交叉熵** | 度量两个概率分布间的差异，主要用于监督学习中的目标优化 | | **KL 散度** | 计算一个分布相对于另一个分布的信息增益或“距离”，是非对称的 | | **JS 散度** | 基于 KL 散度改进而来，解决非对称问题并提供更稳定的数值表现 | 这些概念都属于信息论范畴，但在实际应用中有不同的侧重点。例如，交叉熵被频繁用作神经网络训练的目标函数，而 KL 散度更多地出现在变分推断等领域。 --- ### 在机器学习和深度学习中的作用 - **信息熵**：帮助理解数据集内部结构以及特征的重要性。 - **交叉熵**：作为分类任务的核心损失函数，指导模型参数调整以最小化误差。 - **KL 散度**：适用于生成对抗网络 (GANs) 或变分自编码器 (VAEs) 中隐空间分布匹配的任务。 - **JS 散度**：相比 KL 更加稳定可靠，尤其适合处理不平衡样本情况下的相似度比较场景。 --- ####

Tensorflow2.* 熵 相对熵（KL散度）（交叉熵） 互信息 （信息增益）代码实现

目录标题

一维随机变量

熵

相对熵（relative entropy）或(Kullback-Leibler)KL散度

Tensorflow2.* 熵相对熵（KL散度）（交叉熵）互信息（信息增益）代码实现