论文解读-SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

本文介绍了SeqGAN,一种解决生成对抗网络(GAN)在生成离散序列数据时遇到问题的方法。SeqGAN将序列生成视为强化学习过程,使用策略梯度更新生成器,通过蒙特卡罗搜索处理离散输出问题。鉴别器以完整序列评估奖励,指导生成器学习。实验表明SeqGAN在合成数据和真实场景(如诗歌、音乐生成)中优于其他基线模型。

本文是上海交通大学张伟楠教授发表的一篇关于使用基于策略梯度的GAN来生成轨迹的文章,文章称作为一种训练产生式模型的新方法,产生式对抗性网络(GAN)利用判别模型指导产生式模型的训练,在生成实值数据方面取得了相当大的成功。然而,GAN在生成实值数据方面也存在不少的问题,例如1)产生式模型的离散输出使得从判别模型到产生式模型的梯度更新很难通过。2)判别模型只能评估完整的序列,而对于部分生成的序列,一旦整个序列生成后,平衡其当前分数和未来分数是非常困难的。

本文提出了一个序列生成框架SeqGAN来解决问题,将数据生成器建模为强化学习(RL)中的随机策略,SeqGAN通过直接执行梯度策略更新绕过了生成器差异化问题。RL奖励信号来自按完整序列判断的GAN鉴别器,并且使用蒙特卡罗搜索被传递回中间状态-动作步骤。

Introduction

古德费罗等人于2014年提出的生成对抗性网络(GAN)。在GAN中,判别网D学习区分给定数据实例是否真实,而生成网G通过生成高质量数据来学习混淆D。

不幸的是,应用GaN生成序列有两个问题。首先,GAN设计用于生成实值的、连续的数据,但在直接生成离散符号序列(如文本)方面存在困难。

本文将将序列生成过程视为顺序决策过程。产生式模型被视为强化学习(RL)的Agent;状态是到目前为止生成的令牌,动作是下一个要生成的令牌。为了给出奖励,我们使用一个鉴别器来评估序列,并反馈评估来指导生成模型的学习。

为了解决当输出是离散的情况下梯度不能返回生成模型的问题,我们将生成模型看作一个随机的参数化策略。在我们的政策梯度中,我们使用蒙特卡罗(MC)搜索来近似状态作用值。我们通过策略梯度直接训练策略(生成模型)。

Related Work

深度生成模型包括,DBN,DAE,VAE等。
所有这些产生式模型都是通过最大化训练数据似然(下限)来训练的,但是这存在逼近难以处理的概率计算的困难。

2014年提出了一种替代生成性模型的训练方法,即GAN,其中训练过程是生成性模型和歧视性模型之间的极小极大博弈。该框架绕过了最大似然学习的困难,并在自然图像生成方面取得了惊人的成功。但是GAN在生成连续数据方面效果不好,这是因为GAN中的生成器被设计为能够连续调整输出,这不适用于离散数据生成。

Bengio等人指出,训练和生成之间的差异使得最大似然估计不是最优的,并提出了预定抽样策略(SS)。后来(Husz‘ar 2015)理论上认为SS下的目标函数是不正确的,并从理论上解释了Gans倾向于生成看起来自然的样本的原因。因此,GAN算法对离散概率模型具有很大的潜力,但目前在实际应用中并不可行。

其实,有研究人员指出,序列数据的生成可以表示为一个序列决策过程,这可能可以通过强化学习技术来解决。将序列生成器建模为选择下一个token的策略,策略梯度方法可以用来优化生成器。

综上所述,我们提出的SeqGAN使用基于强化学习的生成器来扩展GANS,以解决序列生成问题,其中鉴别器在每集结束时通过蒙特卡洛方法提供奖励信号,生成器选择动作并使用估计的总体奖励来学习策略。

序列生成对抗网络

序列的生成问题描述如下,使用GθG_{\theta}Gθ生成序列Y1:T=(y1,...,yt,...yT)Y_{1:T}=(y_1,...,y_t,...y_{T})Y

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cxp_001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值