f-divergence
P和Q是两个分布,p(x)和q(x)是从中取样x的可能性。
Df最小值为0,此时P和Q完全一样
当P和Q略有不同时,Df>0

f(x)不同时,divergence也不同

Fenchel Conjugate
每个函数f有一个f*

f*(t1)的最大值要穷举所有的x,取最大的值就是f*(t1)
同理,f*(t2)的最大值要穷举所有的x,取最大的值就是f*(t2)

这样太麻烦,另一个方法:
把xt-f(x)的函数画出来,带入不同的x,给定一个t,找函数最大的值

f(x)=xlogx 带入不同x值的曲线:
红色线就是f(x)的Fenchel Conjugate: f*(t)=exp(t-1)

跟GAN的联系:
将f(x)用 max{xt-f*(t)} 代替
那么f(px/qx)就是max{(px/qx)t-f*(t)}

将 t 用D(x)代替:

那么Df(P||Q)约等于:

和GAN的比较:

本文探讨了f-散度的概念,它是衡量两个概率分布P和Q差异的统计量。f-散度的最小值为0,当且仅当P和Q完全相同时成立。文章还介绍了Fenchel共轭的概念,并展示了如何通过它来简化f-散度的计算。最后,文章讨论了f-散度与生成对抗网络(GAN)之间的联系。
1270

被折叠的 条评论
为什么被折叠?



