论文速读|ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation
论文信息:
简介:
本文探讨了将强化学习(Reinforcement Learning, RL)应用于序列生成模型的背景。序列生成是一个长期决策问题,而RL特别适合优化长期奖励,例如序列级别的评分和人类反馈。此外,通过利用自回归生成模式,RL训练可以显著减轻暴露偏差问题。然而,在实际应用中,序列生成问题常常涉及大型动作空间(例如词汇表)和长动作序列(例如翻译),这对探索过程提出了严重的计算挑战,也是设计复杂采样方法的重要动机。
本文的动机在于提高RL在序列生成任务中的训练效率和减少内存消耗。通过减少不必要的