序列神经网络技术全解析
1. 教师强制(Teacher Forcing)
在训练序列模型时,训练序列的似然性由以下公式给出:
[p(y_{1:T} | x) = p(y_1) \prod_{t=2}^{T} p(y_t | y_{1:t - 1}, x)]
这里我们基于过去的真实标签 (y_{1:t - 1}) 进行条件设定,而非模型生成的标签,这种方式被称为教师强制。因为在每一步,教师的真实值都被“强行输入”到模型中作为输入。在机器人领域,教师强制也被称为行为克隆。
然而,教师强制(等同于最大似然估计训练)有时会导致模型在测试时表现不佳。原因在于模型仅在“正确”的输入上进行训练,所以在测试时,如果遇到前一步生成的偏离训练所见的输入 (y_{t - 1}),它可能不知道该如何处理。
常见的解决方案是计划采样(Scheduled Sampling),它一开始使用教师强制,但在随机时间步,改为输入模型生成的样本,并且这种情况发生的比例会逐渐增加。另一种替代方案是使用其他在最大似然估计训练下效果更好的模型,如 1D CNN 和 Transformer。
2. Seq2Vec(序列分类)
我们假设输入是可变长度的序列,要预测一个固定长度的输出向量 (y),即学习一个形式为 (f_{\theta} : R^{T D} \to R^{C}) 的函数,这被称为 Seq2Vec 模型。为简化表示,我们关注输出为类别标签 (y \in {1, \ldots, C}) 的情况。
最简单的方法是使用 RNN 的最终状态作为分类器的输入:
[p(y | x_{1:T}) = Cat(y | S(W h_T))]
超级会员免费看
订阅专栏 解锁全文
4797

被折叠的 条评论
为什么被折叠?



