信息量:
I
(
A
)
=
−
l
o
g
P
(
A
)
I(A)=−logP(A)
I(A)=−logP(A)
用log主要是为了满足
f
(
x
1
)
+
f
(
x
2
)
=
f
(
x
1
⋅
x
2
)
f(x_1) + f(x_2) = f(x_1 \cdot x_2)
f(x1)+f(x2)=f(x1⋅x2)。
熵:
H
(
X
)
=
−
∑
x
∈
X
P
(
x
)
log
P
(
x
)
H(X) = - \sum_{x \in X} P(x) \log P(x)
H(X)=−x∈X∑P(x)logP(x)
对信息量求期望。
KL散度(相对熵)
D
KL
(
P
∥
Q
)
=
∑
x
P
(
x
)
log
P
(
x
)
−
∑
x
P
(
x
)
log
Q
(
x
)
D_{\text{KL}}(P \, \| \, Q) = \sum_{x} P(x) \log P(x) - \sum_{x} P(x) \log Q(x)
DKL(P∥Q)=x∑P(x)logP(x)−x∑P(x)logQ(x)
以概率系统
P
P
P为基准,衡量概率系统
Q
Q
Q与
P
P
P的差异。
交叉熵
H
(
P
,
Q
)
=
−
∑
x
P
(
x
)
log
Q
(
x
)
H(P, Q) = - \sum_{x} P(x) \log Q(x)
H(P,Q)=−x∑P(x)logQ(x)
交叉熵损失函数:
L
=
−
∑
i
=
1
N
∑
x
∈
V
P
(
x
i
)
log
Q
(
x
i
)
\mathcal{L} = - \sum_{i=1}^{N} \sum_{x \in V} P(x_i) \log Q(x_i)
L=−i=1∑Nx∈V∑P(xi)logQ(xi)
在LLM中N表示序列长度。