Bregman Divergence
从squared Euclidean distance (SED)说起
给定两个n维点,
x
,
y
∈
R
n
x,y \in R^n
x,y∈Rn,两点之间的SED定义为:
接下来,我们引入一些notion,重新定义SED:
<
x
,
y
>
:
=
∑
i
=
1
n
x
i
y
i
<x,y>:=\sum_{i=1}^nx_iy_i
<x,y>:=∑i=1nxiyi 表示x y两点之间的inner product
∣
∣
x
∣
∣
:
=
<
x
,
x
>
||x||:=\sqrt{<x,x>}
∣∣x∣∣:=<x,x>
于是,SED可以表示为:
我们令
f
(
z
)
=
∣
∣
z
∣
∣
2
f(z)=||z||^2
f(z)=∣∣z∣∣2,
f
(
z
)
f(z)
f(z)在
y
y
y处的切线为
f
(
z
)
−
∣
∣
y
∣
∣
2
=
<
2
y
,
(
x
−
y
)
>
f(z)-||y||^2=<2y,(x-y)>
f(z)−∣∣y∣∣2=<2y,(x−y)>,切线在
x
x
x处的值为
∣
∣
y
∣
∣
2
+
<
2
y
,
(
x
−
y
)
>
||y||^2+<2y,(x-y)>
∣∣y∣∣2+<2y,(x−y)>。于是,
d
2
(
x
,
y
)
d^2(x,y)
d2(x,y)可以理解为蓝色的线的长度。
我们希望
d
2
(
x
,
y
)
d^2(x,y)
d2(x,y)是非负的。从几何角度看,这等同于函数
f
f
f始终在其切线上方。我们要求:
上式等同于函数
f
f
f是convex的。这说明,我们可以通过选择一个convex函数
f
f
f来定义一种距离度量
d
f
d_f
df:
这种方式定义的距离度量就是Bregman divergences,并且函数
f
f
f的convexity属性保证了距离的非负性。
上图就是从几何角度理解KL-divergence。
Bregman divergences 性质
Bregman Divergence iff(当且仅当) The Mean is a Minimiser
定理:
解读:假设 d d d: R n ∗ R n − > R R^{n}*R^{n}->R Rn∗Rn−>R是一个连续非负的函数,满足对于所有 X ∈ R n X \in R^n X∈Rn, d ( x , x ) = 0 d(x,x)=0 d(x,x)=0 ,并且对于 1 < = i , j < = n 1<=i,j<=n 1<=i,j<=n, ∂ ∂ x i ∂ x j d ( x , y ) \frac{\partial}{\partial{x_i}\partial{x_j}}d(x,y) ∂xi∂xj∂d(x,y)连续。如果对于所有随机变量 X ∈ R n X \in R^n X∈Rn,期望 E [ X ] E[X] E[X]唯一最小化 y − > E [ d ( X , y ) ] y->E[d(X,y)] y−>E[d(X,y)],那么一定存在严格凸和可微的函数 f : R n − > R f:R^n->R f:Rn−>R得到 d = d f d=d_f d=df。
即当且仅当期望
E
[
X
]
E[X]
E[X]唯一最小化
y
−
>
E
[
d
(
X
,
y
)
]
y->E[d(X,y)]
y−>E[d(X,y)]时,
d
d
d是Bregman Divergence
参考文献
Meet the Bregman Divergences
Bregman 散度(Bregman divergence)和Bregman信息(Bregman information)