为什么GAN不能处理离散的数据?

本文探讨了GAN在处理文本数据时遇到的挑战,包括文本数据的离散性质导致生成器难以从判别器获得有效反馈,以及JS散度不适合衡量不相交分布之间的距离。介绍了WGAN在改进距离度量方面的尝试,以及seq-GAN等结合强化学习的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近我们小组的一个任务是要学习两个分布数据之间的映射关系,我们的数据形式是D_1=\{a_1,a_2,...,a_n\},D_2=\{b_1,b_2,...b_m\},其中a_i,b_j分别是d维的数据,我们想到了用GAN来学习这两个分布之间的映射关系,后来发现效果不太好,迭代一次该模型就对真样本数据和假样本数据傻傻分不清,真假概率都为0.5,后来查找到GAN原来不适合处理离散的数据样本,所以来写个笔记记录一下:

为什么GAN不适合处理文本数据

1. 文本数据相比较图片数据来说是离散的,因为对于文本来说,通常需要将一个词映射为一个高维的向量,最终预测的输出是一个one-hot向量,假设softmax的输出是(0.2, 0.3, 0.1,0.2,0.15,0.05)那么变为onehot是(0,1,0,0,0,0),如果softmax输出是(0.2, 0.25, 0.2, 0.1,0.15,0.1 ),one-hot仍然是(0, 1, 0, 0, 0, 0),所以对于生成器来说,G输出了不同的结果但是D给出了同样的判别结果,并不能将梯度更新信息很好的传递到G中去,所以D最终输出的判别没有意义。

2. 另外就是GAN的损失函数是JS散度,JS散度不适合衡量不想交分布之间的距离。

(WGAN虽然使用wassertein距离代替了JS散度,但是在生成文本上能力还是有限,GAN在生成文本上的应用有seq-GAN,和强化学习结合的产物)

参考https://blog.youkuaiyun.com/qq_25737169/article/details/78857724

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值