跨语言音素识别的分层多任务学习
1. 引言
近年来,尽管语音识别领域引入了多种高效架构,但大多数架构都需要为每种语言提供大量训练数据。然而,世界上许多语言的带注释语音语料库要么语句数量少,要么根本无法获取。
为解决这一问题,人们开始探索在高资源语言的大型多语言语料库上(预)训练端到端架构。例如,有人微调多语言预训练的wav2vec 2.0模型用于音素识别,以处理跨语言迁移任务。这些自动语音识别(ASR)模型既可以像某些研究中那样针对低资源语言用有限的训练数据进行微调,也可以像另一些研究评估的那样在目标语言无任何训练数据的情况下进行零样本应用。
语言学家开发的发音属性系统已被应用于多个ASR架构中,以提高音素识别性能。有的研究使用签名矩阵将发音属性分布映射到音素分布,还有的研究将属性以可训练嵌入的形式用作输入。
发音属性也以多任务学习的形式被纳入ASR系统。本工作是之前关于跨语言音素识别的分层多任务学习研究的扩展。分层多任务学习用于联合学习发音属性和音素的识别,与常规多任务学习的关键区别在于增加了属性分类器和音素分类器之间的直接连接。
2. 音素识别架构
2.1 混合Transformer声学模型
跨语言音素识别的架构使用混合卷积和Transformer声学模型架构。为对声学帧序列进行编码,采用混合卷积和Transformer架构,该模型的架构和超参数选择借鉴了他人提出的Transformer声学模型,基于使用连接主义时间分类(CTC)训练的变体。
编码语音时,先将输入音频重采样到16kHz,提取25ms帧,步长为10ms,并计算40维梅尔频率倒谱系数(MFCC)特征。模型的
超级会员免费看
订阅专栏 解锁全文
2311

被折叠的 条评论
为什么被折叠?



