基于数据增强的印地语情感文本转语音合成及直接与级联语音到语音翻译对比研究
1. 背景与现状
语音到语音翻译(S2ST)是将一种语言的语音直接转换为另一种语言语音的过程。然而,世界上超过 40%的语言没有书面形式,为这些语言开发翻译技术是一项具有挑战性的任务。传统的 S2ST 系统采用级联方法,包括自动语音识别(ASR)、机器翻译(MT)和文本到语音合成(TTS)三个模块。但这种方法存在级联误差传播的问题,并且依赖源语言和目标语言的文本,因此为无书面形式的语言构建 S2ST 系统十分困难。
近年来,研究人员开始致力于开发直接语音到语音翻译(DS2ST)系统,不过大多数尝试在不使用语言书面形式时性能不如级联方法。同时,DS2ST 系统面临数据稀缺的问题,因为它需要并行语音数据集,而目前尝试的工作大多使用 TTS 系统生成的合成数据。数据增强是解决数据稀缺的有效方法,它可以人为增加数据的多样性,提高系统性能。
2. 研究方法
2.1 直接语音到语音翻译(DS2ST)模型
本文提出了一种基于变压器的序列到序列模型来执行 DS2ST 任务,无需辅助网络。具体步骤如下:
- 特征提取 :从原始语音中提取 80 维梅尔滤波器组特征,分别作为编码器和解码器的输入。
- 编码器 :由 12 个变压器层组成,隐藏单元为 256 维。输入特征通过两个 1D - CNN 层下采样到原来的四分之一大小,以减少内存消耗。每个多头注意力块包含 8 个头,前馈块使用 1024 维内部状态并接 Layer - Norm。
- 解码器
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



