
证明如下:

其中当测度趋于0时,EM距离下的概率分布趋于P0,而其他距离则不会收敛,且EM距离下损失函数是连续的,任意一点处均有梯度;


定理1证明如下:



以下推论告诉我们:用神经网络来最小化EM距离(至少理论上)可行

推论1证明如下:

所有这些说明:对我们的问题,至少与JS散度相比,EM距离作损失函数更合理。
接下来的定理描述这些距离和散度引入拓扑的相对强度:KL最强,紧随JS和TV,EM最弱;
推论2:令P为紧空间X上的分布,且为X上的分布序列,则n→0时,考虑所有的限制:

推论2证明如下:


这里强调的是:学习低维流形支撑的分布时,KL,JS和TV距离为不合理的损失函数,但此时EM距离却合理,这是因为:
(1)EM距离可使概率序列收敛至真实数据的概率分布,其它距离不可收敛;
(2)EM距离的损失函数连续,可用梯度下降学习低维流形上的概率分布;其它距离的损失函数不连续;
(3)EM距离引入的拓扑相对强度最弱;
由推论2可知W距离比JS距离有更好的属性,只是W距离原始定义式中的下确界较难确定;因此可将W距离转化为如下公式:
![]()
证明如下:


证明如下:

本文探讨了EM距离作为概率分布间距离度量的特点及其在学习低维流形支撑分布时的优势。通过比较KL散度、JS散度和TV距离等,证明了EM距离在概率序列收敛、损失函数连续性和引入拓扑强度方面的优越性。
515

被折叠的 条评论
为什么被折叠?



