机器学习与深度学习系列连载: 第二部分 深度学习(二十) 轮询采样 Scheduled Sampling

探讨Seq2Seq模型在训练与测试阶段的Mismatch问题,介绍ScheduledSampling技术如何平衡真实标签与模型生成结果的使用,以及强化学习辅助方法在结果序列生成中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

计划采样 Scheduled Sampling 和 强化学习辅助

当我们用Seq2Seq模型进行训练和测试的时候,很容易遇到Mismatch的问题,因为训练的时候,不同的timestep输入的是groudTruth的值,但是测试的时候,不同的timestep输入的是生成的值。具体我们看下面的解释。

1. 训练和测试的Mismatch

训练的时候:
在这里插入图片描述

测试的时候:
Testing: The inputs are the outputs of the last time step.
在这里插入图片描述

这会造成什么问题呢? 训练的时候错一步,只一步,测试的时候一步错,步步错!
在这里插入图片描述

2. Scheduled Sampling

我们训练的时候兼顾reference和generation,兼顾的方式是按照概率选择。
在这里插入图片描述
但是选择不是随机的,训练开始的时候,还是以referenc为主,到训练后期,参考自己生成的
在这里插入图片描述

3. 强化学习辅助

通过强化学习,而不是人为设定,进行结果序列生成。 最终的结果的reward决定训练的过程。
在这里插入图片描述

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229,斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里,感谢这些经典课程,向他们致敬!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值