#信息熵
H(x)=−∫xP(x)log(P(x))dxH(x)=-\int _{x}P(x)log(P(x))dxH(x)=−∫xP(x)log(P(x))dx
信息熵表示一个随机变量在经过随机事件结果,随机变量状态量的大小。
#条件熵
表示的是在已知随机变量X的前提下,随机变量Y的信息熵,注意X是随机变量。
H(Y∣X)=∑x,yp(x,y)logp(x)p(x,y)H(Y|X) = \sum_{x,y}p(x,y)log\frac{p(x)}{p(x,y)}H(Y∣X)=∑x,yp(x,y)logp(x,y)p(x)
链式法则:
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
#互信息
由链式法则,H(X)−H(X∣Y)=H(Y)−H(Y∣X)H(X)-H(X|Y)=H(Y)-H(Y|X)H(X)−H(X∣Y)=H(Y)−H(Y∣X)
互信息I(X;Y)=H(X)−H(X∣Y)I(X;Y) = H(X)-H(X|Y)I(X;Y)=H(X)−H(X∣Y)
=H(x)+H(Y)−H((X,Y))= H(x)+H(Y)-H((X,Y))=H(x)+H(Y)−H((X,Y))
=∑x,yp(x,y)logp(x,y)p(x)p(y)= \sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}=∑x,yp(x,y)logp(x)p(y)p(x,y)
表示的是一个随机变量X信息量有多少是关于X,Y互相包含的信息。
#距离函数
定义一个集合元素之间的距离的函数。
d:x∗x−>[0,+∞)x*x->[0,+\infin)x∗x−>[0,+∞)并且满足以下条件:
- d(x,y)>=0
- d(x,y)=0<=>x=y
- d(x,y) = d(y,x)
- d(x,z)<=d(x,y)+d(y,z)
#Total Variation distance (TV)
θ(P,Q)=supA∈F∣P(A)−Q(A)∣\theta(P,Q)=sup_{A\in F}|P(A)-Q(A)|θ(P,Q)=supA∈F∣P(A)−Q(A)∣
描述两个分布的距离,L1正则化。
KL divergence
- KL不具有对称性,KL(P||Q) != KL(Q||P).
- KL不具有可比性,K(P||Q)>KL(R||Q),不能说明分布P更接近Q.
KL(P∣∣Q)=−∫xP(x)logQ(x)P(x)dxKL(P||Q)= -\int_{x}P(x)log\frac{Q(x)}{P(x)}dxKL(P∣∣Q)=−∫xP(x)logP(x)Q(x)dx
描述的是两个分布之间的相似性。但是有以上缺点
#f-divergence
Df(p∣∣q)=∫q(x)f(p(x)q(x))dxD_{f}(p||q)=\int q(x)f(\frac{p(x)}{q(x)})dxDf(p∣∣q)=∫q(x)f(q(x)p(x))dx
当f取-log时,f散度是KL散度
Jensen-Shanno divergence
JSD(P∣∣Q)=0.5∗KL(P∣∣M)+0.5∗KL(Q∣∣M)M=0.5∗(P+Q)JSD(P||Q)=0.5*KL(P||M)+0.5*KL(Q||M)M=0.5*(P+Q)JSD(P∣∣Q)=0.5∗KL(P∣∣M)+0.5∗KL(Q∣∣M)M=0.5∗(P+Q)
- JS散度和互信息有相关性
- JS散度范围是[0,1]
- JS散度具有可比性
描述的是两个分布之间的距离。
#Wasserstein distance
描述的是从分布P(x)移动到分布Q(x)所需要的最小代价。
Wp(u,v)=infr∈T(u,v)∫M∗M(d(x,y))pdr(x,y)pW_{p}(u,v) =inf_{r\in T(u,v)} \int_{M*M}(d(x,y))^{p}dr(x,y)^{p}Wp(u,v)=infr∈T(u,v)∫M∗M(d(x,y))pdr(x,y)p
r(x,y)是要满足的约束。