信息论与概率分布的香农熵计算

1、计算公平和非公平骰子概率分布的香农熵,非公平骰子概率分布为(1/10,1/10,1/10,1/10,1/10,1/2),公平骰子概率分布为(1/6,1/6,1/6,1/6,1/6,1/6)。

以下是评估非公平骰子(概率分布为(1/10,1/10,1/10,1/10,1/10,1/2))香农熵的Python程序,运行该程序可得到该非公平骰子的香农熵。

import numpy as np
import math
import re

arr = np.array([1/10,1/10,1/10,1/10,1/10,1/2])
shannon_entropy = 0
numterms = len(arr)
print(numterms)
index = 0
for index in range(0, numterms):
    shannon_entropy += arr[index]*math.log(arr[index])
shannon_entropy = -shannon_entropy
print(shannon_entropy)

要计算公平骰子的香农熵,可将程序中的概率数组替换为公平骰子的概率分布(1/6,1/6,1/6,1/6,1/6,1/6),再运行程序即可。以下是修改后的代码:

import numpy as np
import math
import re

arr = np.array([1.0/6,1.0/6,1.0/6,1.0/6,1.0/6,1.0/6])
shannon_entropy = 0
numterms = len(arr)
print(numterms)
index = 0
for index in range(0, numterms):
    shannon_entropy += arr[index]*math.log(arr[index])
shannon_entropy = -shannon_entropy
print(shannon_entropy)

运行上述代码可得到公平骰子的香农熵。

2、同时掷两个公平的六面骰子,它们点数之和的期望值是多少?这个期望值是实际可能出现的结果吗?如果不是,这意味着什么?

两个六面骰子掷出的点数总和 $ X $ 的期望值 $ E(X) = 7 $。
这个期望值是实际可能出现的结果,因为两个骰子点数之和可能为 7 。
期望值是基于概率计算出的理论平均结果,反映了在大量重复试验中结果的平均水平。

3、查阅文献并撰写一份关于鞅(Martingale)类型序列常见出现情况的报告。

鞅在多个领域有常见应用:

  1. 数学与统计学
    在统计学中,似然比检验的检验统计量“似然比”是鞅的例子。渐近等分定理(AEP)和霍夫丁不等式已被推广到鞅。

  2. 物理学
    当观测描述平衡或“稳态”等物理现实中熟悉的涌现现象时,常能看到鞅序列现象,物理系统达到平衡时会体现鞅序列性质。

  3. 算法学习
    在算法学习环境中,系统达到平衡时能看到鞅序列性质。在隐马尔可夫模型(HMM)的维特比推导中,若使用局部“传感器”,如轮廓 - HMM 或状态转变附近的位置相关马尔可夫模型,会出现似然比序列为鞅的情况;在 HMM 维特比区域识别中也会出现。

  4. 赌博领域
    赌博中有很多鞅的例子。

  5. 马尔可夫链
    对于马尔可夫链过程,可诱导出鞅。设 {Yn} 是马尔可夫链过程,f 是有界右正则序列,Xn = f(Yn) 是关于 {Yn} 的鞅。

4、证明 P(X,Y|Z) = P(X|Z) P(Y|X,Z)。

根据条件概率的定义,条件概率公式为

$$ P(A|B) = \frac{P(A,B)}{P(B)} $$

对于 $ P(X,Y|Z) $,根据条件概率定义有

$$ P(X,Y|Z) = \frac{P(X,Y,Z)}{P(Z)} $$

对于 $ P(X|Z)P(Y|X,Z) $,其中

$$ P(X|Z) = \frac{P(X,Z)}{P(Z)} $$

$$ P(Y|X,Z) = \frac{P(X,Y,Z)}{P(X,Z)} $$

那么

$$
P(X|Z)P(Y|X,Z) = \frac{P(X,Z)}{P(Z)} \times \frac{P(X,Y,Z)}{P(X,Z)} = \frac{P(X,Y,Z)}{P(Z)}
$$

所以 $ P(X,Y|Z) = P(X|Z) P(Y|X,Z) $ 得证。

5、证明邦费罗尼不等式:P(X,Y) ≥ P(X) + P(Y) - 1。

根据概率的基本性质,对于任意两个事件 $ X $ 和 $ Y $,有:

$$
P(X \cup Y) = P(X) + P(Y) - P(X, Y)
$$

又因为概率值是在 0 到 1 之间的,即:

$$
0 \leq P(X \cup Y) \leq 1
$$

所以有:

$$
P(X) + P(Y) - P(X, Y) \leq 1
$$

移项可得:

$$
P(X, Y) \geq P(X) + P(Y) - 1
$$

不等式得证。

6、访问基因库(https://www.ncbi.nlm.nih.gov/genbank),选择三个中等大小(约1 Mb)的细菌基因组,其中两种细菌亲缘关系较近。使用合适的Python代码,确定它们的六聚体频率。这三个细菌基因组的六聚体频率的香农熵分别是多少?考虑以下三种评估基因组六聚体频率谱之间距离的方法(用Freq(genome1)等表示),分别尝试并评估它们在揭示“已知情况”(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值