[AAAI2017]SeqGAN:Sequence Generative Adversarial Nets with Policy Gradient

断断徐徐终于把源码看完啦,果然paper+code才是正确的阅读paper方式呀
预训练生成器:用真实数据训练
预训练判别器:真实数据+生成器生成虚假数据混合后训练
对于Generator来说,预训练和对抗过程中使用的损失函数是不一样的,在预训练过程中,Generator使用的是交叉熵损失函数,而在对抗过程中,我们使用的则是Policy Gradient中的损失函数,即对数损失*奖励值。

而对Discriminator来说,两个过程中的损失函数都是一样的,即我们前面介绍的对数损失函数。
之后就是生成器和判别器的对抗训练过程了:

关于本文解析的非常好的几篇博文:
https://www.jianshu.com/p/de4e913e0580
https://www.colabug.com/2639033.html
https://www.colabug.com/2639033.html
https://blog.youkuaiyun.com/Mr_tyting/article/details/80269143
https://www.jianshu.com/p/45d45b8541f0

详解GAN在自然语言处理中的问题:原理、技术及应用:
http://www.360doc.com/content/17/0210/18/32056199_628087216.shtml

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值