分类目录:《机器学习中的数学》总目录
相关文章:
· 距离定义:基础知识
· 距离定义(一):欧几里得距离(Euclidean Distance)
· 距离定义(二):曼哈顿距离(Manhattan Distance)
· 距离定义(三):闵可夫斯基距离(Minkowski Distance)
· 距离定义(四):切比雪夫距离(Chebyshev Distance)
· 距离定义(五):标准化的欧几里得距离(Standardized Euclidean Distance)
· 距离定义(六):马氏距离(Mahalanobis Distance)
· 距离定义(七):兰氏距离(Lance and Williams Distance)/堪培拉距离(Canberra Distance)
· 距离定义(八):余弦距离(Cosine Distance)
· 距离定义(九):测地距离(Geodesic Distance)
· 距离定义(十): 布雷柯蒂斯距离(Bray Curtis Distance)
· 距离定义(十一):汉明距离(Hamming Distance)
· 距离定义(十二):编辑距离(Edit Distance,Levenshtein Distance)
· 距离定义(十三):杰卡德距离(Jaccard Distance)和杰卡德相似系数(Jaccard Similarity Coefficient)
· 距离定义(十四):Ochiia系数(Ochiia Coefficient)
· 距离定义(十五):Dice系数(Dice Coefficient)
· 距离定义(十六):豪斯多夫距离(Hausdorff Distance)
· 距离定义(十七):皮尔逊相关系数(Pearson Correlation)
· 距离定义(十八):卡方距离(Chi-square Measure)
· 距离定义(十九):交叉熵(Cross Entropy)
· 距离定义(二十):相对熵(Relative Entropy)/KL散度(Kullback-Leibler Divergence)
· 距离定义(二十一):JS散度(Jensen–Shannon Divergence)
· 距离定义(二十二):海林格距离(Hellinger Distance)
· 距离定义(二十三):α-散度(α-Divergence)
· 距离定义(二十四):F-散度(F-Divergence)
· 距离定义(二十五):布雷格曼散度(Bregman Divergence)
· 距离定义(二十六):Wasserstein距离(Wasserstei Distance)/EM距离(Earth-Mover Distance)
· 距离定义(二十七):巴氏距离(Bhattacharyya Distance)
· 距离定义(二十八):最大均值差异(Maximum Mean Discrepancy, MMD)
· 距离定义(二十九):点间互信息(Pointwise Mutual Information, PMI)
α-散度表达式如下:
D
α
(
p
∣
∣
q
)
=
4
1
−
α
2
(
1
−
∫
p
(
x
)
1
+
α
2
q
(
x
)
1
−
α
2
d
x
)
D_\alpha(p||q)=\frac{4}{1-\alpha^2}(1-\int p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}\text{d}x)
Dα(p∣∣q)=1−α24(1−∫p(x)21+αq(x)21−αdx)
其中,
−
∞
<
α
<
+
∞
-\infty<\alpha<+\infty
−∞<α<+∞是一个连续参数。KL散度
D
K
L
(
p
∣
∣
q
)
D_{KL}(p||q)
DKL(p∣∣q)对应于极限
α
→
1
\alpha\rightarrow1
α→1 ,而
D
K
L
(
q
∣
∣
p
)
D_{KL}(q||p)
DKL(q∣∣p)对应于极限
α
→
−
1
\alpha\rightarrow-1
α→−1。对于所有的
α
\alpha
α值,我们有
D
α
(
p
∣
∣
q
)
≥
0
D_{\alpha}(p||q)\geq0
Dα(p∣∣q)≥0,当且仅当
p
(
x
)
=
q
(
x
)
p(x)=q(x)
p(x)=q(x)时等号成立。假设
p
(
x
)
p(x)
p(x)是一个固定的分布,我们关于某个概率分布
q
(
x
)
q(x)
q(x)的集合最小化
D
α
(
p
∣
∣
q
)
D_{\alpha}(p||q)
Dα(p∣∣q)。那么对于
α
≤
−
1
\alpha\leq-1
α≤−1的情况,散度是零强制的(Zero Forcing),即对于使得
p
(
x
)
=
0
p(x)=0
p(x)=0成立的任意
X
X
X值,都有
q
(
x
)
=
0
q(x)=0
q(x)=0,通常
q
(
x
)
q(x)
q(x)会低估
p
(
x
)
p(x)
p(x)的支持,因此倾向于寻找具有最大质量的峰值。相反,对于
α
≥
−
1
\alpha\geq-1
α≥−1的情况,散度是零避免的(Zero Avoiding),即对于使得
p
(
x
)
>
0
p(x)>0
p(x)>0成立的任意
X
X
X值,都有
q
(
x
)
>
0
q(x)>0
q(x)>0,通常
q
(
x
)
q(x)
q(x)会进行拉伸来覆盖到所有的
p
(
x
)
p(x)
p(x)值,从而高估了
p
(
x
)
p(x)
p(x)的支持。当
α
=
0
\alpha=0
α=0时,我们得到了一个对称的散度,它与Hellinger距离线性相关:
D
H
(
p
∣
∣
q
)
=
∫
(
p
(
x
)
1
2
+
q
(
x
)
1
2
)
d
x
)
D_H(p||q)=\int (p(x)^{\frac{1}{2}}+q(x)^{\frac{1}{2}})\text{d}x)
DH(p∣∣q)=∫(p(x)21+q(x)21)dx)