Wasserstein 距离(Wasserstein Distance)

Wasserstein 距离(Wasserstein Distance),也称为Earth Mover's Distance(EMD),是一种用于衡量两个概率分布之间差异的度量方法。它起源于最优传输理论,描述了将一个分布“搬移”成另一个分布所需的最小“工作量”。

一、直观理解

假设有两个分布PQ,分别代表两堆土。Wasserstein 距离描述的是将P这堆土“搬移”成Q这堆土所需的最小代价。这里的“代价”通常用距离和搬运的土量来定义。

数学定义:对于两个概率分布PQ,Wasserstein 距离可以定义为:

W_p(P, Q) = \left( \inf_{\gamma \in \Gamma(P, Q)} \int_{X \times Y} d(x, y)^p \, d\gamma(x, y) \right)^{1/p}

其中:

d(x, y) 是xy之间的距离(通常使用欧几里得距离)。

Gamma(P, Q)PQ的所有联合分布的集合。

gamma(x, y)是联合分布,表示从x搬运到y的“土量”。

p是一个参数,通常取p=1p=2

p=1时,称为1-Wasserstein 距离,是最常用的形式:

W_1(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \int_{X \times Y} d(x, y) \, d\gamma(x, y)

二、Wasserstein 距离的优点

1. 能够衡量不重叠分布的距离:传统的距离度量(如 KL 散度、JS 散度)在两个分布没有重叠时可能会失效(例如 KL 散度趋于无穷大),而 Wasserstein 距离仍然能够有效衡量分布之间的差异。

2. 反映分布的几何结构:Wasserstein 距离考虑了分布之间的空间关系,能够捕捉分布的几何特性(如形状、位置等)。

3. 适用于低维和高维空间:Wasserstein 距离在低维和高维空间中都有良好的表现,尤其是在生成模型(如 GANs)中。

三、Wasserstein 距离在 GANs 中的应用

在生成对抗网络(GANs)中,Wasserstein 距离被用作损失函数,称为 **Wasserstein GAN(WGAN)。WGAN 的主要改进包括:

1.使用 Wasserstein 距离作为损失函数:传统的 GANs 使用 JS 散度或 KL 散度作为损失函数,容易导致训练不稳定或模式崩溃。Wasserstein 距离能够提供更平滑的梯度,改善训练稳定性。

2. 引入权重裁剪或梯度惩罚:为了满足 Wasserstein 距离的 Lipschitz 连续性条件,WGAN 通过权重裁剪或梯度惩罚(如 WGAN-GP)来约束判别器的梯度。

四、Wasserstein 距离的计算

在实际应用中,Wasserstein 距离的计算通常比较复杂,尤其是对于高维分布。常用的近似方法包括:

1. 对偶形式:通过 Kantorovich-Rubinstein 对偶性,将 Wasserstein 距离转化为一个优化问题:

    W_1(P, Q) = \sup_{\|f\|_L \leq 1} \left( \mathbb{E}_{x \sim P}[f(x)] - \mathbb{E}_{x \sim Q}[f(x)] \right)

     其中f是一个满足 1-Lipschitz 条件的函数。

2. Sinkhorn 算法:通过引入熵正则化,使用 Sinkhorn 迭代算法高效计算 Wasserstein 距离。

Wasserstein 距离是一种强大的概率分布度量方法,能够有效衡量分布之间的差异,尤其在分布不重叠或几何结构复杂时表现优异。它在生成对抗网络(GANs)中的应用显著改善了模型的训练稳定性和生成质量。尽管计算复杂度较高,但通过近似方法(如对偶形式或 Sinkhorn 算法),Wasserstein 距离在实际问题中得到了广泛应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值