Bregman Divergence

从squared Euclidean distance (SED)说起

给定两个n维点, x , y ∈ R n x,y \in R^n x,yRn,两点之间的SED定义为:
在这里插入图片描述
接下来,我们引入一些notion,重新定义SED:
< x , y > : = ∑ i = 1 n x i y i <x,y>:=\sum_{i=1}^nx_iy_i <x,y>:=i=1nxiyi 表示x y两点之间的inner product
∣ ∣ x ∣ ∣ : = < x , x > ||x||:=\sqrt{<x,x>} x:=<x,x>
于是,SED可以表示为:
在这里插入图片描述
我们令 f ( z ) = ∣ ∣ z ∣ ∣ 2 f(z)=||z||^2 f(z)=z2 f ( z ) f(z) f(z) y y y处的切线为 f ( z ) − ∣ ∣ y ∣ ∣ 2 = < 2 y , ( x − y ) > f(z)-||y||^2=<2y,(x-y)> f(z)y2=<2y,(xy)>,切线在 x x x处的值为 ∣ ∣ y ∣ ∣ 2 + < 2 y , ( x − y ) > ||y||^2+<2y,(x-y)> y2+<2y,(xy)>。于是, d 2 ( x , y ) d^2(x,y) d2(x,y)可以理解为蓝色的线的长度。
在这里插入图片描述

在这里插入图片描述
我们希望 d 2 ( x , y ) d^2(x,y) d2(x,y)是非负的。从几何角度看,这等同于函数 f f f始终在其切线上方。我们要求:
在这里插入图片描述
上式等同于函数 f f fconvex的。这说明,我们可以通过选择一个convex函数 f f f来定义一种距离度量 d f d_f df
在这里插入图片描述
这种方式定义的距离度量就是Bregman divergences,并且函数 f f fconvexity属性保证了距离的非负性。
在这里插入图片描述
上图就是从几何角度理解KL-divergence。
在这里插入图片描述

Bregman divergences 性质

在这里插入图片描述

Bregman Divergence iff(当且仅当) The Mean is a Minimiser

定理:
在这里插入图片描述

解读:假设 d d d: R n ∗ R n − > R R^{n}*R^{n}->R RnRn>R是一个连续非负的函数,满足对于所有 X ∈ R n X \in R^n XRn, d ( x , x ) = 0 d(x,x)=0 d(x,x)=0 ,并且对于 1 < = i , j < = n 1<=i,j<=n 1<=i,j<=n ∂ ∂ x i ∂ x j d ( x , y ) \frac{\partial}{\partial{x_i}\partial{x_j}}d(x,y) xixjd(x,y)连续。如果对于所有随机变量 X ∈ R n X \in R^n XRn,期望 E [ X ] E[X] E[X]唯一最小化 y − > E [ d ( X , y ) ] y->E[d(X,y)] y>E[d(X,y)],那么一定存在严格凸和可微的函数 f : R n − > R f:R^n->R f:Rn>R得到 d = d f d=d_f d=df

在这里插入图片描述
即当且仅当期望 E [ X ] E[X] E[X]唯一最小化 y − > E [ d ( X , y ) ] y->E[d(X,y)] y>E[d(X,y)]时, d d d是Bregman Divergence

参考文献

Meet the Bregman Divergences
Bregman 散度(Bregman divergence)和Bregman信息(Bregman information)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值