RL for Sentence Generation

最新推荐文章于 2024-06-14 09:00:00 发布

村头陶员外

最新推荐文章于 2024-06-14 09:00:00 发布

阅读量575

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习自然语言处理

本文链接：https://blog.youkuaiyun.com/Mr_tyting/article/details/80407872

自然语言处理同时被 2 个专栏收录

24 篇文章

订阅专栏

强化学习

7 篇文章

订阅专栏

本文深入探讨了seqGAN的工作原理及其在强化学习中的应用，特别是Policy Gradient方法如何用于优化生成器参数，以最大化期望奖励。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇博文主要总结下台大教授李宏毅深度学习课程中关于 $s e q G A N$ 的相关内容，并且添加了自己的一些思考。

Policy Gradient

众所周知，强化学习的目标就是 $RewardMaximizing\ Expected\ Reward$ ，在 $s e q G A N$ 中，如下图：

这里写图片描述

上图中生成器是一个 $s e q 2 s e q$ 的模型，判别器就是所谓的 $H u m a m$ 。那么不同的 $encoder\_input\ h$ 能生成不同的 $x$ ，我们把 $h, x$ 喂给判别器，让其进行评价评估，得到其 $r e w a r d$ 。

我们的目标就是希望最大化的这个 $RewardMaximizing\ Expected\ Reward$
这里写图片描述

上面公式中的 $∑p(h)\sum p(h)$ 可以理解为 $encoder\_input$ 的分布， $pθ(x∣h)p_\theta (x|h)$ 表示在当前 $encoder\_input$ 下生成的所有 $x$ 的分布，注意因为有随机性，相同的 $h$ 不一定能生成相同的 $x$ 。 $θ\theta$ 是 $s e q 2 s e q$ 的模型参数。我们的就是不断的最大化上面的 $RθR_{\theta}$ 来更新 $θ\theta$ 然后更新生成器。

显然，我们可以将上式子理解成期望的形式：

这里写图片描述

因为不可能穷举所有的训练数据，故只能采用 $s a m p l e$ 近似的方式

这里写图片描述

由此产生了一个问题，我们需要更新生成器的参数 $θ\theta$ ，如果采用 $s a m p l e$ 的方式，则无法找到参数，参数是隐藏其中的，影响生成的 $x$ 。

好，此时采用 $gradientpolicy\ gradient$ 的方法：
这里写图片描述

然后我们用已经求得的 $R$ 对 $θ\theta$ 的导数，利用 $gradient\_ascend$ 来更新 $θ\theta$ 。

这里写图片描述

显然：

当 $R(h^i, x^i)$ 为正时，通过更新 $θ\theta$ ，更新后的 $p(x_i|h_i)$ 会增大。
当 $R(h^i, x^i)$ 为负时，通过更新 $θ\theta$ ，更新后的 $p(x_i|h_i)$ 会减小。

经典的是 $gradientpolicy\ gradient$ 与 $M L E$ 的比较：

这里写图片描述

上面表格的总结非常精辟，强化学习的目标函数实际上就是MLE的每一项的前面加了个权重而已，这个权重就是 $r e w a r d$ ；并且在 $M L E$ 的目标函数中，其 $x$ 为 $targettrue\ target$ ，而在 $R L$ 中， $x$ 为生成所生成的。（避免 $exposurebias\ exposure$ 问题）