引言
所谓的信息,就是以前不知道现在知道的事实,如果某件事以前就知道,当别人再告诉你时,你会忽略,这件事对你的认知没有任何影响,这就不叫信息,反之,如果某件事以前你不知道,有人告诉你了,你现在知道了,那么对你而言,这件事就是信息。
让我们更进一步,看一件事带来的信息量的大小如何来度量。顾名思义,信息量就是度量信息大小的一种量,让我们看一个形象的例子。有人告诉你巴西赢了世界杯,那么这件事对大多数人而言,并不值得关注,它并没有带来多少惊喜,如果是中国赢得了世界杯,那么这件事可能会刷新很多人的世界观,这件事带来的信息量就特别大,我们常说的黑天鹅事件就是概率极低但确实发生了的事件。定性的说,小概率事件带来的信息量大,大概率事件带来的信息量小。下面我们看下以上这句话如何定量的描述。
用概率来度量信息是合理的,这并不是空穴来风,半个多世纪之前,香农提出的信息论便是以概率论为基础。执果索因,我们先来看看香农为什么用事件发生概率的对数来度量信息量。
用概率描述信息量的重要性质:
- 事件发生的概率越低,信息量越大
- 事件发生的概率越高,信息量越少
- 多个事件同时发生的概率是多个事件概率相乘,总信息量是多个事件信息量相加
通过第三点,我们可以知道:
x
1
和
x
2
同
时
发
生
的
概
率
:
P
(
x
1
,
x
2
)
=
P
(
x
1
)
⋅
P
(
x
2
)
x_1和x_2同时发生的概率:P(x_1, x_2) = P(x_1)\cdot P(x_2)
x1和x2同时发生的概率:P(x1,x2)=P(x1)⋅P(x2)
x
1
和
x
2
总
信
息
量
:
l
o
g
[
P
(
x
1
)
P
(
x
2
)
]
=
l
o
g
[
P
(
x
1
)
]
+
l
o
g
[
P
(
x
2
)
]
x_1和x_2总信息量:log[P(x_1)P(x_2)] = log[P(x_1)] + log[P(x_2)]
x1和x2总信息量:log[P(x1)P(x2)]=log[P(x1)]+log[P(x2)]
通过前两点,我们知道信息量,信息量和概率之间一定是减函数的关系。
由此确定,信息量描述为:
I
(
x
)
=
−
l
o
g
P
(
x
)
I(x) = -logP(x)
I(x)=−logP(x)
称
I
(
x
)
I(x)
I(x)为自信息,如果以 2 为底,单位是bit。当使用以 e 为底的对数时,单位将是 nat。对于基底为 10 的对数,单位是 hart。
信息熵
对于离散系统
H
(
X
)
=
−
∑
i
p
i
l
o
g
(
p
i
)
H(X) = -\sum_{i}p_ilog (p_{i})
H(X)=−i∑pilog(pi)
对于连续的系统
H
(
x
)
=
E
x
∼
P
[
I
(
x
)
]
=
−
E
x
∼
P
[
l
o
g
P
(
x
)
]
H(x) = E_{x\sim P}[I(x)] = - E_{x\sim P}[log P(x)]
H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]
信息熵反应了信息量的多少,信息熵越大表明信息越多,随机事件的信息量与随机变量的确定性有关,不确定性越大包含的信息量就越大,所有可能的事件等概率时不确定性最高。
交叉熵
令不完美的编码用
Q
Q
Q表示,平均编码长度为
H
(
P
,
Q
)
=
−
E
P
(
x
)
Q
(
x
)
=
−
∫
P
(
x
)
l
o
g
Q
(
x
)
d
x
H(P,Q) = -E_{P(x)}Q(x) = -\int P(x)logQ(x)dx
H(P,Q)=−EP(x)Q(x)=−∫P(x)logQ(x)dx
交叉熵用来衡量编码方案不一定完美时,平均编码的长度。
交叉熵常用作损失函数。原因是真实的样本分布是
P
P
P, 而模型概率分布是
Q
Q
Q, 只有模型分布于真实样本分布相等时,交叉熵最小。
KL散度
D
K
L
(
P
∣
∣
Q
)
=
E
x
∼
P
[
l
o
g
P
(
x
)
Q
(
x
)
]
=
∫
P
(
x
)
l
o
g
P
(
x
)
d
x
−
∫
P
(
x
)
l
o
g
Q
(
x
)
d
x
D_{KL}(P||Q) = E_{x\sim P}[log \frac{P(x)}{Q(x)}] = \int P(x)logP(x)dx -\int P(x)logQ(x)dx
DKL(P∣∣Q)=Ex∼P[logQ(x)P(x)]=∫P(x)logP(x)dx−∫P(x)logQ(x)dx
KL散度用来衡量两个概率分布之间的相似程度,其重要性质是非负性,而且,当且仅当两个概率分布处处相等时,KL散度取到零。KL散度与一般的距离不同,它一般不具有对称性。
H
(
P
,
Q
)
=
D
K
L
(
P
∣
∣
Q
)
+
H
(
P
)
H(P, Q) = D_{KL}(P||Q) + H(P)
H(P,Q)=DKL(P∣∣Q)+H(P)上述关系很容易推导,此处从略,可以看出样本的真实分布
P
P
P保持不变,最优化交叉熵等价于最优化KL散度。KL散度还可用于异常检测。
Reference:
https://www.cnblogs.com/yinheyi/p/6426431.html
https://blog.youkuaiyun.com/dog250/article/details/78944526