理解:信息量,熵,微分熵

理解:信息量,熵,微分熵

摘要:

信息量 := (事件发生)不确定的量 := 惊讶程度 := (发生)概率倒数的对数 ,即:

I(x) = −log p(x)

说明:

1. 构造中,对数化是为了变乘除为加减,加负号是为了让信息量成为概率的减函数,且信息量取值非负。

2. 对数底,机器学习取e,单位纳特;通信领域取2,单位比特。

(信息)熵 := (整个样本空间下)随机变量整体不确定的量 := 随机变量取所有可能值包含的信息量 := 信息量的数学期望,即:

离散随机变量  (离散)熵H(X) = E[I(X)] = −∑P(x)logP(x); 其中P(x)为概率质量函数或叫分布律

连续随机变量  *微分熵*h(X) = E[I(X)] = -∫ f(x) log f(x) dx;其中f(x)为概率密度函数;

微分熵不是连续版的熵,而是熵在连续极限下的形式推广,使用需谨慎。

理解 信息论里的 信息量 熵

Qwen3-Max

当然!信息论中的信息量(自信息)和是理解“不确定性”与“信息”的基石。下面用直觉、公式和例子帮你清晰掌握。


一、信息量(自信息,Self-Information)

🔍 直觉:

越不可能发生的事件,发生时带来的信息量越大

  • 明天太阳升起?→ 几乎必然 → 信息量 ≈ 0
  • 明天陨石撞地球?→ 极罕见 → 信息量极大

📐 数学定义:

I(x) = −logP(x)

对一个事件 ,其发生概率为 ,则它的信息量为:

  • 单位:比特(bit,以2为底)、纳特(nat,以e为底)等;
  • 概率越小 →  越大;
  • 若 (必然事件)→ (无新信息)。

✅ 信息量衡量的是单个事件的“惊讶程度”


二、熵(Entropy)

🔍 直觉:

熵是“平均信息量”,即随机变量整体的不确定性

  • 抛一枚公平硬币:结果难预测 → 熵高(1 bit);
  • 抛一枚两面都是正面的硬币:结果确定 → 熵为 0。

📐 数学定义(离散):

H(X) = E[I(X)] = −∑P(x)logP(x)

对随机变量 ,其概率分布为 ,则熵为:

  • 是信息量  的期望值
  • 衡量:描述  所需的最小平均编码长度(香农信源编码定理)。

🌰 例子:

  • 公平硬币: bit
  • 偏置硬币(90%正面): bit(更可预测,熵更低)

三、关键关系总结

概念

对象

含义

公式

信息量 

单个事件 

该事件发生带来的“惊讶度”

 

随机变量 

整体不确定性的平均信息量

熵 = 信息量的期望
熵越高,系统越“混乱”,越难预测


四、为什么重要?

  • 数据压缩极限
    无损压缩的平均码长 ≥ 熵(香农第一定理);
  • 机器学习
    决策树用熵(或基尼不纯度)选择最优分割;
  • 通信
    信道容量与熵密切相关;
  • 物理学
    热力学熵与信息熵在统计意义上相通。

一句话总结:

信息量告诉你“一件事有多意外”,熵告诉你“一个系统平均有多不可预测”
它们共同构成了信息论的起点——用数学度量“信息”本身


附:连续随机变量的熵

连续随机变量的熵通常指的是微分熵(Differential Entropy),它是信息论中衡量连续随机变量不确定性或信息量的工具。微分熵的定义为:

H(X) = -∫ f(x) log f(x) dx

其中,f(x) 是随机变量 X 的概率密度函数(PDF)。微分熵与离散熵类似,但用于描述连续分布的随机变量。

微分熵的性质

微分熵的值并不总是无穷大,但在某些情况下可能趋于无穷大或为负值。以下是一些关键点:

  1. 熵值可能为负:微分熵的值可以为负,特别是当概率密度函数 f(x) 的值大于 1 时(例如在较小范围内分布很集中的变量)。这与离散熵始终为非负数不同。
  2. 熵值可能趋于无穷大:当概率密度函数的分布范围无限扩展(例如正态分布的标准差 σ 趋于无穷大)时,微分熵可能趋于无穷大。这是因为分布越宽广,不确定性越大,熵值也越高。
  3. 单位的影响:微分熵的单位与概率密度函数的定义有关,通常以“比特”或“纳特”为单位。与离散熵不同,微分熵没有严格的单位定义。

特定分布的微分熵

以下是一些常见分布的微分熵公式:

  • 正态分布:H(X) = 1/2 log(2πeσ²)。当 σ 趋于无穷大时,熵值趋于无穷大。
  • 均匀分布:H(X) = log(b - a)。区间 [a, b] 越大,熵值越高。
  • 指数分布:H(X) = 1 - log(λ)。参数 λ 越小,熵值越大。

结论

连续随机变量的熵是否为无穷大取决于其概率密度函数的分布特性。如果分布范围无限扩展(如正态分布的标准差无限大),熵值可能趋于无穷大。但在实际应用中,微分熵通常用于衡量有限范围内的随机变量不确定性,因此其值并不总是无穷大。

信息论 微分熵

Qwen3-Max

微分熵(Differential Entropy)是信息论中连续随机变量的“熵”推广,但它与离散熵有本质区别——它不是信息量的直接度量,也不能表示编码所需的最小比特数。理解它需要明确其定义、性质与局限。


一、定义

设连续随机变量 的概率密度函数为 ,则其微分熵定义为:

  • 单位:比特(若以2为底)或纳特(若以  为底);
  • 形式上类似离散熵,但将求和换成积分,概率质量换成概率密度 。

二、关键性质 vs 离散熵

性质

离散熵 H(X)

微分熵 h(X)

非负性

H(X)≥0

❌ 可为负值(如窄高斯分布)

信息意义

表示最优无损编码平均长度

❌ 不能直接解释为编码长度

坐标不变性

与符号标签无关

❌ 依赖变量单位(如米 vs 厘米结果不同)

最大熵分布

均匀分布

在固定方差下,高斯分布最大

📌 核心区别
离散熵衡量“不确定性”,而微分熵衡量的是概率密度的“集中程度”,缺乏绝对信息意义。


三、为什么微分熵可以为负?

考虑一个非常集中的分布,例如:

  • X∼N(0,σ2),其微分熵为:

  • 当 时,h(X) < 0。

解释
密度f(x)可大于1(如尖峰分布),此时 logf(x) > 0,导致−f(x)logf(x) 积分为负。
但这不违反信息论,因为微分熵本身不是“信息量”。


四、微分熵的真正用途

尽管不能直接度量信息,但在以下场景仍有重要价值

1. 相对比较有意义

  • 虽然  绝对值无意义,但差值有意义
  • 例如:互信息 I(X;Y) = h(X) + h(Y) − h(X,Y) 仍非负且有信息意义;
  • KL 散度  也有效。

2. 最大熵原理

  • 在给定约束下(如均值、方差),使微分熵最大的分布最“无偏”;
  • 例:固定方差 → 高斯分布;固定均值(正实数)→ 指数分布。

3. 连续信道容量

  • 香农公式 的推导依赖微分熵。

五、与离散熵的关系(极限视角)

若将连续变量X用精度Δ 量化为离散变量 XΔ,则:

  • 当 ,(因无限精度需无限比特);
  • 微分熵 = 离散熵减去量化精度带来的发散项

✅ 这说明:微分熵是“去除无限精度冗余后的相对熵”


六、常见分布的微分熵


七、一句话总结

微分熵不是“连续版的熵”,而是离散熵在连续极限下的形式推广。

它本身无绝对信息意义,但其差值(如互信息、KL散度)
使用时切记:不要将其解释为“平均信息量”或“编码长度”

它是连接连续概率模型与信息论的桥梁,但必须谨慎解读。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值