Wasserstein distance&测度

本文深入探讨了Wasserstein距离的概念及其在机器学习中的应用,特别是GANs领域。通过直观的解释,帮助读者理解该距离度量如何衡量两个概率分布之间的差异,并详细介绍了其在优化过程中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Wasserstein distance

维基百科

https://www.zhihu.com/question/41752299/answer/147394973

参考

令人拍案叫绝的Wasserstein GAN第三部分:Wasserstein距离的优越性质对于Wasserstein距离的解释,十分清晰

注意这里 Π(Pr,Pg) Pr Pg 组合起来的所有可能的联合分布的集合,反过来说, Π(Pr,Pg) 中每一个分布的边缘分布都是 Pr Pg

其实很容易可以想像,真实分布 Pr 是恒定的,但是生成分布 Pg 是变化的,是个变量,在寻找下确界inf的过程,其实就是在优化 Pg ,使得 Pr Pg 之间W距离最小

Earth-Mover距离

http://blog.youkuaiyun.com/garfielder007/article/details/50389507

测度

https://www.zhihu.com/question/28367115

### Wasserstein距离的概念 Wasserstein距离,也称为Earth Mover's Distance (EMD),衡量两个概率分布之间的差异。具体来说,在最优传输理论框架下,该距离计算将一个分布转换成另一个所需的最小工作量。对于任意的概率测度 \( P \) 和 \( Q \),以及成本函数 \( c(x,y) \),Wasserstein 距离定义如下: \[ W(P,Q)=\inf_{\gamma\in\Pi(P,Q)}\int_{X\times Y}c(x,y)\mathrm{d}\gamma(x,y)[^1] 这里 \( \Pi(P,Q) \) 表示所有边缘分别为 \( P \) 和 \( Q \) 的联合分布集合。 ### 应用于机器学习中的场景 #### 生成对抗网络(GAN) 在生成对抗网络中,传统方法采用Jensen-Shannon散度来评估生成样本的质量;但是这种方法可能导致训练过程不稳定或梯度消失等问题。为此提出了使用Wasserstein距离作为替代方案之一,即所谓的WGAN模型[^2]。通过引入Lipschitz约束条件下的批评家(critic),可以更稳定有效地优化目标函数并改善最终效果。 #### 数据增强与迁移学习 除了图像生成领域外,Wasserstein距离还在其他方面有着广泛的应用价值。例如,在数据集之间存在较大差距的情况下实施迁移学习时,可以通过最小化源域和目标域间特征表示上的Wasserstein距离实现更好的泛化性能[^3]。 ```python import torch from torch import nn class Critic(nn.Module): def __init__(self, input_dim=784, hidden_dim=512): super(Critic, self).__init__() self.model = nn.Sequential( nn.Linear(input_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, 1) ) def forward(self, x): return self.model(x) def wasserstein_loss(real_scores, fake_scores): """Compute the Wasserstein loss.""" return -(torch.mean(real_scores) - torch.mean(fake_scores)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值