28、基于数据增强的印地语情感文本转语音合成及直接与级联语音到语音翻译对比研究

基于数据增强的印地语情感文本转语音合成及直接与级联语音到语音翻译对比研究

1. 背景与现状

语音到语音翻译(S2ST)是将一种语言的语音直接转换为另一种语言语音的过程。然而,世界上超过 40%的语言没有书面形式,为这些语言开发翻译技术是一项具有挑战性的任务。传统的 S2ST 系统采用级联方法,包括自动语音识别(ASR)、机器翻译(MT)和文本到语音合成(TTS)三个模块。但这种方法存在级联误差传播的问题,并且依赖源语言和目标语言的文本,因此为无书面形式的语言构建 S2ST 系统十分困难。

近年来,研究人员开始致力于开发直接语音到语音翻译(DS2ST)系统,不过大多数尝试在不使用语言书面形式时性能不如级联方法。同时,DS2ST 系统面临数据稀缺的问题,因为它需要并行语音数据集,而目前尝试的工作大多使用 TTS 系统生成的合成数据。数据增强是解决数据稀缺的有效方法,它可以人为增加数据的多样性,提高系统性能。

2. 研究方法
2.1 直接语音到语音翻译(DS2ST)模型

本文提出了一种基于变压器的序列到序列模型来执行 DS2ST 任务,无需辅助网络。具体步骤如下:
- 特征提取 :从原始语音中提取 80 维梅尔滤波器组特征,分别作为编码器和解码器的输入。
- 编码器 :由 12 个变压器层组成,隐藏单元为 256 维。输入特征通过两个 1D - CNN 层下采样到原来的四分之一大小,以减少内存消耗。每个多头注意力块包含 8 个头,前馈块使用 1024 维内部状态并接 Layer - Norm。
- 解码器

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值