49、序列神经网络技术全解析

序列神经网络技术全解析

1. 教师强制(Teacher Forcing)

在训练序列模型时,训练序列的似然性由以下公式给出:
[p(y_{1:T} | x) = p(y_1) \prod_{t=2}^{T} p(y_t | y_{1:t - 1}, x)]
这里我们基于过去的真实标签 (y_{1:t - 1}) 进行条件设定,而非模型生成的标签,这种方式被称为教师强制。因为在每一步,教师的真实值都被“强行输入”到模型中作为输入。在机器人领域,教师强制也被称为行为克隆。

然而,教师强制(等同于最大似然估计训练)有时会导致模型在测试时表现不佳。原因在于模型仅在“正确”的输入上进行训练,所以在测试时,如果遇到前一步生成的偏离训练所见的输入 (y_{t - 1}),它可能不知道该如何处理。

常见的解决方案是计划采样(Scheduled Sampling),它一开始使用教师强制,但在随机时间步,改为输入模型生成的样本,并且这种情况发生的比例会逐渐增加。另一种替代方案是使用其他在最大似然估计训练下效果更好的模型,如 1D CNN 和 Transformer。

2. Seq2Vec(序列分类)

我们假设输入是可变长度的序列,要预测一个固定长度的输出向量 (y),即学习一个形式为 (f_{\theta} : R^{T D} \to R^{C}) 的函数,这被称为 Seq2Vec 模型。为简化表示,我们关注输出为类别标签 (y \in {1, \ldots, C}) 的情况。

最简单的方法是使用 RNN 的最终状态作为分类器的输入:
[p(y | x_{1:T}) = Cat(y | S(W h_T))]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值