KL散度
1 数学定义
- 真实分布: P ( x ) P(x) P(x)
- 近似分布: Q ( x ) Q(x) Q(x)
1.1 离散分布
D KL ( P ∥ Q ) = ∑ x P ( x ) log P ( x ) Q ( x ) D_{\text{KL}}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} DKL(P∥Q)=x∑P(x)logQ(x)P(x)
1.2 连续分布
D KL ( P ∥ Q ) = ∫ P ( x ) log P ( x ) Q ( x ) d x D_{\text{KL}}(P \parallel Q) = \int P(x) \log \frac{P(x)}{Q(x)} \, dx DKL(P∥Q)=∫P(x)logQ(x)P(x)dx
1.3 说明
- log P ( x ) Q ( x ) \log \frac{P(x)}{Q(x)} logQ(x)P(x)衡量在每个点 x x x 处两个分布的偏离程度。
- D KL ( P ∥ Q ) D_{\text{KL}}(P \parallel Q) DKL(P∥Q) 表示用分布 Q Q Q 近似分布 P P P 时所“付出的代价”或“信息损失”。
KL 散度对概率分布极为敏感:
- 在高概率区域的差异被放大
- 在低概率区域的差异被抑制
2 性质
2.1 非负性
根据Jensen不等式,凸函数(convex)满足
f ( E [ X ] ) ≤ E [ f ( X ) ] f\!\bigl(\mathbb{E}[X]\bigr) \le \mathbb{E}\!\bigl[f(X)\bigr] f(E[X])≤E[f(X)]
取对数函数 f ( x ) = log x f(x)=\log x f(x)=logx(凹函数, − log -\log −log 为凸函数),则
− D KL ( P ∥ Q ) = − ∑ x P ( x ) log P ( x ) Q ( x ) = ∑ x P ( x ) log Q ( x ) P ( x ) ≤ log ( ∑ x P ( x ) Q ( x ) P ( x ) ) = log ( ∑ x Q ( x ) ) = log 1 = 0. \begin{aligned} -D_{\text{KL}}(P\parallel Q) &= -\sum_{x}P(x)\log\frac{P(x)}{Q(x)} \\[4pt] &= \sum_{x}P(x)\log\frac{Q(x)}{P(x)} \\[4pt] &\le \log\!\biggl(\sum_{x}P(x)\frac{Q(x)}{P(x)}\biggr) \\[4pt] &= \log\!\biggl(\sum_{x}Q(x)\biggr)=\log 1=0. \end{aligned} −DKL(P∥Q)=−x∑P(x)logQ(x)P(x)=x∑P(x)logP(x)Q(x)≤log(x∑P(x)P(x)Q(x))=log(x∑Q(x))=log1=0.
因此
− D KL ( P ∥ Q ) ≤ 0 ⟹ D KL ( P ∥ Q ) ≥ 0. -D_{\text{KL}}(P\parallel Q)\le 0 \quad\Longrightarrow\quad D_{\text{KL}}(P\parallel Q)\ge 0. −DKL(P∥Q)≤0⟹DKL(P∥Q)≥0.
当且仅当 Q ( x ) P ( x ) \dfrac{Q(x)}{P(x)} P(x)Q(x) 为常数,即 P ( x ) = Q ( x ) P(x)=Q(x) P(x)=Q(x) 几乎处处成立时,等号成立。
2.2 可加性
对于离散分布:
D KL ( P ∥ Q ) = ∑ x P ( x ) log P ( x ) Q ( x ) D_{\text{KL}}(P \parallel Q)=\sum_{x}P(x)\log\frac{P(x)}{Q(x)} DKL(P∥Q)=x∑P(x)logQ(x)P(x)
若 P = P 1 P 2 P = P_1 P_2 P=P1P2 且 Q = Q 1 Q 2 Q = Q_1 Q_2 Q=Q1Q2(多维独立分布的乘积),则有
D KL ( P 1 P 2 ∥ Q 1 Q 2 ) = D KL ( P 1 ∥ Q 1 ) + D KL ( P 2 ∥ Q 2 ) . D_{\text{KL}}\bigl(P_1P_2 \parallel Q_1Q_2\bigr)=D_{\text{KL}}(P_1 \parallel Q_1)+D_{\text{KL}}(P_2 \parallel Q_2). DKL(P1P2∥Q1Q

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



