(RNA)Recurrent Neural Aligner
其实他是在RNN-T之后被提出的,有点像CTC和RNA之间过度的方法。
CTC输出时是相互独立的,我们不想让他相互独立,让其在输出时看一看前面的东西。把Linear classifie换成rnn或者lstm即可,这就是rna。

RNN-T
RNA和CTC都是吃一个输入,输出一个token,那有时候我们需要吃一个输入,有多个输出,例如吃一个发音对应多个token,RNN-T便可以做这个事情。
一个输入进来,一直输出到Model觉得满意为止。有T个声音讯feature,输出T个Null,最终辨识的结果要把null拿掉。

RNN-T和CTC有同样的问题,需要知道何时输出null,但是这种Label在training是没有的,这种label需要自己去训练。
例如下图,你必须要在好棒之间插入四个null,RNN-T和CTC一样会穷举所有的element

实际上RNN-T会另外训练一个RNN,其作用有点像是一个language model,遇见null时忽略。

本文探讨了在语音识别领域中两种重要的模型:(RNA)Recurrent Neural Aligner与RNN-Transducer(RNN-T)。RNA作为一种介于CTC与RNN-T之间的方法,通过使用循环神经网络改进了输出序列的依赖关系。而RNN-T则能够处理一个输入对应多个输出的情况,适用于复杂的语音转换场景。两者都面临着如何有效确定空标签(null)的问题。
313

被折叠的 条评论
为什么被折叠?



