信息<消息<信号
信
息
:
是
事
物
运
动
状
态
或
存
在
方
式
不
确
定
性
的
描
述
消
息
:
是
包
含
有
信
息
的
语
言
文
字
或
图
像
等
信
号
:
是
消
息
的
物
理
体
现
信息:是事物运动状态或存在方式不确定性的描述\\ 消息:是包含有信息的语言文字或图像等\ \ \ \ \ \ \ \ \ \ \ \ \\ 信号:是消息的物理体现\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\
信息:是事物运动状态或存在方式不确定性的描述消息:是包含有信息的语言文字或图像等 信号:是消息的物理体现
对
通
信
系
统
来
说
,
传
输
的
是
信
号
,
信
号
承
载
着
消
息
,
消
息
中
不
确
定
的
成
分
是
信
息
对通信系统来说,传输的是信号,信号承载着消息,消息中不确定的成分是信息
对通信系统来说,传输的是信号,信号承载着消息,消息中不确定的成分是信息
自信息
I ( x ) = − l o g ( p ( x ) ) I(x)=-log(p(x)) I(x)=−log(p(x))
自信息单位
自 信 息 的 单 位 : 自 信 息 的 单 位 取 决 于 对 数 的 底 , 自信息的单位: 自信息的单位取决于对数的底, 自信息的单位:自信息的单位取决于对数的底,
底数 | 单位 |
---|---|
2 | bit |
e | nat |
10 | hat |
互信息
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性
信息熵(熵=E=平均)
信 息 量 是 一 个 部 分 值 , 而 信 息 熵 是 一 个 整 体 值 , H ( x ) = − ∑ q ( x ) l o g ( q ( x ) ) 信息量是一个部分值,而信息熵是一个整体值,H(x)=-\sum q(x)log(q(x)) 信息量是一个部分值,而信息熵是一个整体值,H(x)=−∑q(x)log(q(x))
信 息 熵 及 其 相 关 概 念 信息熵及其相关概念 信息熵及其相关概念
条
件
熵
(
知
道
某
一
条
件
后
的
剩
余
不
确
定
度
)
H
(
Y
∣
X
)
=
−
∑
p
(
x
i
,
y
j
)
l
o
g
(
y
j
∣
x
i
)
联
合
熵
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
=
−
∑
p
(
x
i
,
y
j
)
l
o
g
(
x
i
,
y
j
)
互
信
息
与
熵
的
关
系
:
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
,
知
道
条
件
Y
后
,
Y
提
供
的
关
于
X
的
信
息
或
通
过
联
合
自
信
息
I
(
X
Y
)
表
示
:
I
(
X
;
Y
)
=
H
(
X
)
+
H
(
Y
)
−
I
(
X
Y
)
条件熵(\tiny 知道某一条件后的剩余不确定度\normalsize) \ \ \ \ \ \ \ \ \ \ \ H(Y|X)=-\sum \color{red} p(x_i,y_j)log(y_j|x_i) \color{black}\\ 联合熵 \ \ \ H(X,Y)=H(X)+H(Y|X)=-\sum \color{red} p(x_i,y_j)log(x_i,y_j) \color{black}\\ 互信息与熵的关系:I(X;Y)=H(X)-H(X|Y),知道条件Y后,Y提供的关于X的信息\\ 或通过联合自信息I(XY)表示:I(X;Y)=H(X)+H(Y)-I(XY)
条件熵(知道某一条件后的剩余不确定度) H(Y∣X)=−∑p(xi,yj)log(yj∣xi)联合熵 H(X,Y)=H(X)+H(Y∣X)=−∑p(xi,yj)log(xi,yj)互信息与熵的关系:I(X;Y)=H(X)−H(X∣Y),知道条件Y后,Y提供的关于X的信息或通过联合自信息I(XY)表示:I(X;Y)=H(X)+H(Y)−I(XY)
为
什
么
条
件
熵
用
联
合
概
率
加
权
?
:
条
件
概
率
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
H
(
Y
∣
X
)
=
∑
i
=
1
n
p
(
x
i
)
H
(
Y
/
x
i
)
=
−
∑
i
=
1
n
p
(
x
i
)
∑
j
=
1
m
p
(
y
j
/
x
i
)
l
o
g
(
p
(
y
j
/
x
i
)
)
=
−
∑
i
=
1
n
∑
j
=
1
m
p
(
x
i
)
p
(
y
j
/
x
i
)
l
o
g
(
p
(
y
j
/
x
i
)
)
=
−
∑
i
∑
j
p
(
x
i
,
y
j
)
l
o
g
(
y
j
∣
x
i
)
为什么条件熵用联合概率加权? :条件概率P(A|B)=\frac{P(AB)}{P(B)}\\ H(Y|X)=\sum_{i=1}^n p(x_i)H(Y/x_i) =-\sum_{i=1}^n p(x_i)\sum_{j=1}^m p(y_j/x_i)log(p(y_j/x_i)) \\ =-\sum_{i=1}^n \sum_{j=1}^m p(x_i) p(y_j/x_i)log(p(y_j/x_i)) \\ =-\sum_i \sum_j \color{red} p(x_i,y_j)log(y_j|x_i)
为什么条件熵用联合概率加权?:条件概率P(A∣B)=P(B)P(AB)H(Y∣X)=i=1∑np(xi)H(Y/xi)=−i=1∑np(xi)j=1∑mp(yj/xi)log(p(yj/xi))=−i=1∑nj=1∑mp(xi)p(yj/xi)log(p(yj/xi))=−i∑j∑p(xi,yj)log(yj∣xi)
条 件 熵 一 定 不 大 于 无 条 件 熵 : H ( Y ) ≥ H ( Y ∣ X ) 条件熵一定不大于无条件熵:H(Y)\geq H(Y|X) 条件熵一定不大于无条件熵:H(Y)≥H(Y∣X)
熵的性质
非负性
H ( x ) = − ∑ q ( x ) l o g ( q ( x ) ) 永 不 为 负 H(x)=-\sum q(x)log(q(x))永不为负 H(x)=−∑q(x)log(q(x))永不为负
熵的可加性
独 立 信 源 : H ( X Y ) = H ( X ) + H ( Y ) 相 关 信 源 : H ( X Y ) = H ( X ) + H ( Y ∣ X ) 独立信源:H(XY)=H(X)+H(Y)\\ 相关信源:H(XY)=H(X)+H(Y|X) 独立信源:H(XY)=H(X)+H(Y)相关信源:H(XY)=H(X)+H(Y∣X)
凸性
H ( P ) 是 P 的 上 凸 函 数 : H ( θ P 1 + ( 1 − θ ) P 2 ) > θ H ( P 1 ) + ( 1 − θ ) H ( P 2 ) H(P)是P 的上凸函数:H(\theta P_1+(1-\theta)P_2)>\theta H(P_1)+(1-\theta)H(P_2) H(P)是P的上凸函数:H(θP1+(1−θ)P2)>θH(P1)+(1−θ)H(P2)
极值性
H n ( P 1 , P 2 , … , p n ) ≤ l o g ( n ) 最 大 离 散 熵 定 理 : 对 于 n 个 符 号 的 离 散 信 源 , n 个 符 号 信 源 等 可 能 出 现 , 信 源 熵 得 到 最 大 值 H_n(P_1,P_2,…,p_n)\leq log(n)\\ 最大离散熵定理:对于n个符号的离散信源,n个符号信源等可能出现,信源熵得到最大值 Hn(P1,P2,…,pn)≤log(n)最大离散熵定理:对于n个符号的离散信源,n个符号信源等可能出现,信源熵得到最大值
平 均 互 信 息 性 质 ● 非 负 性 , 即 I ( X ; Y ) ≥ 0 。 该 性 质 表 明 , 通 过 一 个 信 道 总 能 传 递 一 些 信 息 , 最 差 的 条 件 下 , 输 入 输 出 完 全 独 立 , 不 传 递 任 何 信 息 , 平 均 互 信 息 等 于 0 , 但 决 不 会 失 去 已 知 的 信 息 ● 对 称 性 , 即 I ( X ; Y ) = I ( Y ; X ) 。 ● 极 值 性 , 即 I ( X ; Y ) ≤ H ( X ) 一 般 来 说 , 平 均 互 信 息 总 是 小 于 信 源 的 熵 , 只 有 当 信 道 是 无 损 信 道 时 , 平 均 互 信 息 才 等 于 信 源 的 熵 率 。 ● 凸 状 性 , I ( X ; Y ) 是 二 元 兩 数 : P ( X ) 的 上 凸 函 数 , P ( Y / X ) 的 下 凸 函 数 。 平均互信息性质\\ ●非负性,即I(X;Y)≥0。该性质表明,通过一个信道总能传递一些信息, 最差的条件下,输入输出完全独立,不传递任何信息,平均互信息等于0, 但决不会失去已知的信息\\ ●对称性,即I(X;Y)= I(Y;X)。\\ ●极值性,即I(X;Y)≤ H(X) 一般来说,平均互信息总是小于信源的熵, 只有当信道是无损信道时,平均互信息才等于信源的熵率。\\ ●凸状性,I(X;Y)是二元兩数: P(X)的上凸函数, P(Y/X)的下凸函数。 平均互信息性质●非负性,即I(X;Y)≥0。该性质表明,通过一个信道总能传递一些信息,最差的条件下,输入输出完全独立,不传递任何信息,平均互信息等于0,但决不会失去已知的信息●对称性,即I(X;Y)=I(Y;X)。●极值性,即I(X;Y)≤H(X)一般来说,平均互信息总是小于信源的熵,只有当信道是无损信道时,平均互信息才等于信源的熵率。●凸状性,I(X;Y)是二元兩数:P(X)的上凸函数,P(Y/X)的下凸函数。
● 从 信 息 传 输 系 统 角 度 看 熵 的 意 义 ● H ( X ) ; 表 示 信 源 边 每 个 符 号 的 平 均 信 总 量 ( 信 源 熵 ) ; ● H ( Y ) ; 表 示 信 宿 边 每 个 符 号 的 平 均 信 息 量 ( 信 宿 熵 ) ; ● H ( X ∣ Y ) : 条 件 熵 H ( X / Y ) 表 示 在 信 宿 接 收 到 Y 后 , 信 源 X 尚 存 的 平 均 不 确 定 性 。 这 个 对 X 尚 存 的 不 确 定 性 是 由 于 信 道 干 扰 引 起 的 。 有 时 称 H ( X / Y ) 为 信 道 疑 义 度 , 也 称 损 失 熵 。 ● H ( Y ∣ X ) : 噪 声 熵 , 表 示 在 己 知 信 源 发 出 X 后 , 对 于 信 宿 Y 尚 存 的 平 均 不 确 定 性 ; 这 是 由 于 噪 卢 引 起 的 。 也 称 为 噪 声 熵 。 ● H ( X Y ) : 表 示 整 个 信 息 传 输 系 统 的 平 均 不 确 定 性 。 ●从信息传输系统角度看熵的意义\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ ●H(X);表示信源边每个符号的平均信总量(信源熵) ;\\ ●H(Y); 表示信宿边每个符号的平均信息量(信宿熵) ;\\ ●H(X|Y):条件熵H(X/Y)表示在信宿接收到Y后,信源X尚存的平均不确定性。 这个对X尚存的不确定性是由于信道干扰引起的。有时称H(X/Y)为信道疑 义度,也称损失熵。\\ ●H(Y|X):噪声熵, 表示在己知信源发出X后,对于信宿Y尚存的平均不确定 性;这是由于噪卢引起的。也称为噪声熵。\\ ●H(XY):表示整个信息传输系统的平均不确定性。 ●从信息传输系统角度看熵的意义 ●H(X);表示信源边每个符号的平均信总量(信源熵);●H(Y);表示信宿边每个符号的平均信息量(信宿熵);●H(X∣Y):条件熵H(X/Y)表示在信宿接收到Y后,信源X尚存的平均不确定性。这个对X尚存的不确定性是由于信道干扰引起的。有时称H(X/Y)为信道疑义度,也称损失熵。●H(Y∣X):噪声熵,表示在己知信源发出X后,对于信宿Y尚存的平均不确定性;这是由于噪卢引起的。也称为噪声熵。●H(XY):表示整个信息传输系统的平均不确定性。
● 互 信 息 与 其 他 熵 的 关 系 ● I ( X ; Y ) = H ( X ) − H ( X / Y ) H ( X ) 表 示 传 输 前 信 源 的 不 确 定 性 , 而 H ( X / Y ) 表 示 收 到 符 号 集 合 Y 后 , 对 信 源 X 尚 存 的 不 确 定 性 , 所 以 二 者 之 差 为 信 道 传 递 的 平 均 信 总 量 。 ● I ( X ; Y ) = H ( Y ) − H ( Y / X ) I ( X ; Y ) 也 表 示 输 出 端 H ( Y ) 的 不 确 定 性 和 已 知 X 的 条 件 下 关 于 Y 的 不 确 定 性 之 差 , 也 等 于 发 送 前 后 关 于 Y 的 不 确 定 性 之 差 。 ● I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X Y ) ● I ( X ; Y ) 确 定 通 过 信 道 的 信 息 量 的 多 少 , 因 此 称 它 为 信 道 传 输 率 或 传 信 率 ●互信息与其他熵的关系\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ ●I(X;Y) =H(X) - H(X/Y) \\H(X)表示传输前信源的不确定性,而H(X/Y) 表示收到符号集合Y后,对信源X尚存的不确定性,所以二者之差为信道 传递的平均信总量。\\ ●I(X;Y)= H(Y)- H(Y/X) \\I(X;Y)也表示输出端H(Y)的不确定性和已知X 的条件下关于Y的不确定性之差,也等于发送前后关于Y的不确定性之差。\\ ●I(X;Y)= H(X) + H(Y)- H(XY)\\ ●I(X;Y)确定通过信道的信息量的多少,因此称它为信道传输率或传信率 ●互信息与其他熵的关系 ●I(X;Y)=H(X)−H(X/Y)H(X)表示传输前信源的不确定性,而H(X/Y)表示收到符号集合Y后,对信源X尚存的不确定性,所以二者之差为信道传递的平均信总量。●I(X;Y)=H(Y)−H(Y/X)I(X;Y)也表示输出端H(Y)的不确定性和已知X的条件下关于Y的不确定性之差,也等于发送前后关于Y的不确定性之差。●I(X;Y)=H(X)+H(Y)−H(XY)●I(X;Y)确定通过信道的信息量的多少,因此称它为信道传输率或传信率
题目
13 个 小 球 , 通 过 天 平 判 断 质 量 不 同 的 那 一 个 小 球 , 要 称 几 次 ? 总 不 确 定 度 : l o g 3 13 , 天 平 有 3 个 状 态 , 称 一 次 解 除 的 不 确 定 度 : l o g 3 3 = 1 T e t 如 果 还 需 判 断 轻 重 , 还 需 增 加 1 b i t 信 息 : 总 不 确 定 度 : l o g 2 13 + l o g 2 2 13个小球,通过天平判断质量不同的那一个小球,要称几次?\\ 总不确定度:log_313,天平有3个状态,称一次解除的不确定度:log_33=1Tet\\ 如果还需判断轻重,还需增加1bit信息:总不确定度:log_213+log_22 13个小球,通过天平判断质量不同的那一个小球,要称几次?总不确定度:log313,天平有3个状态,称一次解除的不确定度:log33=1Tet如果还需判断轻重,还需增加1bit信息:总不确定度:log213+log22
1000桶水,其中一桶有毒,猪喝毒水后会在15分钟内死去,想用15分钟内找到这桶毒水,至少需要几头猪?
1000 桶 水 其 中 有 一 桶 有 毒 “ 这 个 随 机 变 量 X 的 信 息 熵 为 H ( x ) = − 1000 ∗ 1 1000 l o g 2 ( 1 1000 ) = 9.966 1 只 猪 喝 水 以 后 的 要 么 活 着 , 要 么 死 去 , 一 共 有 两 种 状 态 , 所 以 ” 1 只 猪 喝 完 水 以 后 的 状 态 “ 这 个 随 机 变 量 Y 的 信 息 熵 为 − ( 1 2 l o g ( 1 2 ) + 1 2 l o g ( 1 2 ) ) n 只 猪 喝 完 水 会 有 2 n 种 状 态 , 即 " n 只 猪 喝 完 水 以 后 的 状 态 " 这 个 随 机 变 量 Y 的 信 息 熵 为 H ( Y ) = − ∑ i = 1 2 n 1 2 n l o g 2 1 2 n = n 那 么 随 机 变 量 Y 的 信 息 熵 必 须 要 大 于 随 机 变 量 X 的 信 息 熵 : H ( Y ) ≥ H ( X ) ⇒ n ≥ 9.966 , n = 10 1000桶水其中有一桶有毒“这个随机变量X的信息熵为\\ H(x)=-1000*\frac{1}{1000}log_2(\frac{1}{1000})=9.966\\ 1只猪喝水以后的要么活着,要么死去,一共有两种状态,\\所以”1只猪喝完水以后的状态“这个随机变量Y的信息熵为-(\frac{1}{2}log(\frac{1}{2})+\frac{1}{2}log(\frac{1}{2}))\\ n只猪喝完水会有 2^n 种状态,即"n只猪喝完水以后的状态"这个随机变量Y的信息熵为\\ H(Y)=-\sum_{i=1}^{2^n}\frac{1}{2^n}log_2\frac{1}{2^n}=n\\ 那么随机变量Y的信息熵必须要大于随机变量X的信息熵:\\H(Y)\geq H(X)\Rightarrow n\geq 9.966,n=10 1000桶水其中有一桶有毒“这个随机变量X的信息熵为H(x)=−1000∗10001log2(10001)=9.9661只猪喝水以后的要么活着,要么死去,一共有两种状态,所以”1只猪喝完水以后的状态“这个随机变量Y的信息熵为−(21log(21)+21log(21))n只猪喝完水会有2n种状态,即"n只猪喝完水以后的状态"这个随机变量Y的信息熵为H(Y)=−i=1∑2n2n1log22n1=n那么随机变量Y的信息熵必须要大于随机变量X的信息熵:H(Y)≥H(X)⇒n≥9.966,n=10
收到y=0000时,x=0000,全部结果对于x的自信息
两
种
解
法
:
1
:
互
不
相
关
,
可
利
用
加
法
公
式
I
(
x
/
y
)
=
I
(
x
;
y
1
=
0
)
+
I
(
x
;
y
2
=
0
/
y
1
=
0
)
+
I
(
x
;
y
3
=
0
/
y
1
=
y
2
=
0
)
+
I
(
x
;
y
4
=
0
/
y
1
=
y
2
=
=
y
3
=
=
0
)
2
:
利
用
定
义
式
:
I
(
x
/
y
)
=
l
o
g
p
(
y
/
x
)
p
(
y
)
=
l
o
g
(
1
−
p
)
4
1
8
(
(
1
−
p
)
4
+
6
(
1
−
p
)
2
)
p
2
+
p
4
两种解法:\\ 1:互不相关,可利用加法公式\\I(x/y)= I(x;y_1=0)+I(x;y_2=0/y_1=0)+I(x;y_3=0/y_1=y_2=0)+I(x;y_4=0/y_1=y_2==y_3==0) \\ 2:利用定义式:I(x/y)=log\frac{p(y/x)}{p(y)}=log\frac{(1-p)^4}{\frac{1}{8}((1-p)^4+6(1-p)^2)p^2+p^4}
两种解法:1:互不相关,可利用加法公式I(x/y)=I(x;y1=0)+I(x;y2=0/y1=0)+I(x;y3=0/y1=y2=0)+I(x;y4=0/y1=y2==y3==0)2:利用定义式:I(x/y)=logp(y)p(y/x)=log81((1−p)4+6(1−p)2)p2+p4(1−p)4
等概率信源,信道的矩阵如下:,接收y为0000
参考
信息论:5-5©
教材:
信息论基础 Thomas.M.Cover
参考:
工业信息论
信息论与编码
应用信息论基础
信息论与编码学习辅导及习题详解
【信号与信息处理_百度百科】https://mbd.baidu.com/ma/s/kLBA6MDJ
三个随机事件的情况
三 个 随 机 事 件 的 条 件 互 信 息 : 在 给 定 条 件 { Z = z } 下 , 事 件 { X = x } 与 { Y = y } 之 间 的 条 件 互 信 息 定 义 为 : 在 z 的 条 件 下 x ; y 的 信 息 : I ( x ; y ∣ z ) = I ( x ∣ z ) − I ( x ∣ y z ) = l o g p ( x ∣ y , z ) p ( x ∣ z ) 三 个 随 机 变 量 的 条 件 互 信 息 : 在 给 定 条 件 Z 下 , X 与 Y = y 之 间 的 条 件 互 信 息 定 义 为 : I ( X ; Y ∣ Z ) = ∑ x ∑ y ∑ z p ( x , y , z ) I ( x ; y ∣ z ) = ∑ x ∑ y ∑ z p ( x , y , z ) l o g p ( x ∣ y , z ) p ( x ∣ z ) 三个随机事件的条件互信息: 在给定条件\{Z=z\}下,事件\{X=x\}与\{Y=y\}之间的条件互信息定义为:\\ 在z的条件下x;y的信息:I(x;y|z)=I(x|z)-I(x|yz)=log\frac{p(x|y,z)}{p(x|z)}\\ 三个随机变量的条件互信息: 在给定条件Z下,X与Y=y之间的条件互信息定义为:\\ I(X;Y|Z)=\sum_x\sum_y\sum_zp(x,y,z)I(x;y|z)=\sum_x\sum_y\sum_zp(x,y,z)log\frac{p(x|y,z)}{p(x|z)} 三个随机事件的条件互信息:在给定条件{Z=z}下,事件{X=x}与{Y=y}之间的条件互信息定义为:在z的条件下x;y的信息:I(x;y∣z)=I(x∣z)−I(x∣yz)=logp(x∣z)p(x∣y,z)三个随机变量的条件互信息:在给定条件Z下,X与Y=y之间的条件互信息定义为:I(X;Y∣Z)=x∑y∑z∑p(x,y,z)I(x;y∣z)=x∑y∑z∑p(x,y,z)logp(x∣z)p(x∣y,z)
推
论
(
中
间
部
分
)
:
I
(
x
;
y
/
z
)
−
I
(
x
;
y
)
=
I
(
y
;
z
/
x
)
−
I
(
y
;
z
)
=
I
(
z
;
x
/
y
)
−
I
(
z
;
x
)
推论(中间部分):\\ I(x;y/z)-I(x;y)=I(y;z/x)-I(y;z)=I(z;x/y)-I(z;x)
推论(中间部分):I(x;y/z)−I(x;y)=I(y;z/x)−I(y;z)=I(z;x/y)−I(z;x)