Speech recognition模型：MoChA（Monotonic Chunkwise Attention)

最新推荐文章于 2025-09-26 07:30:00 发布

原创最新推荐文章于 2025-09-26 07:30:00 发布 · 992 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别

综合-语音识别专栏收录该内容

5 篇文章

订阅专栏

本文介绍了NT（Neural Transducer）和MoChA两种基于acoustic feature的模型。NT通过固定长度的window进行编码和解码，而MoChA的window长度由模型动态决定。MoChA在每个step中只解码一个token，且没有null的概念。这两种模型在语音识别和序列生成任务中有广泛应用。

一，NT（Neural Transducer) 和 MoChA 均为 input 一把acoustic feature，然后进行输出的模型，在此，以NT为引，引入MoChA。
NT的模型结构如下图所示，其工作机理是，给定一定长度的window，依次框定该长度（数量）的acoustic feature，然后进行encode，在用decoder解码，输出token，直到输出null为止，将window顺移，开始下一step的decode工作。

二，MoChA
与NT相比，MoChA中，window的长度是可变的，每一个step中，window的长度由一个model决定。该模型的工作原理如下：给定zi，以及acoustic feature，将其进model，判断window是否停止生长，如果为否，则继续将zi和下一个acoustic feature输入model，判断window是否生长，如果为否，则停止生长，将之前的所有acoustic featue都框到window中，进行encode，decode。
需要注意的是，这里zi的产生，除z0为初始化值外，其他的zi均是由前一个zi-1 以及第i step中window里的acoustic feature进模型产生。

MoChA 与 NT的另外一个不同点在于，MoChA中，一个window只decode一个token，没有null这一说。