28、基于数据增强的印地语情感文本转语音合成及直接与级联语音到语音翻译对比研究

oo7890

于 2025-08-15 11:56:52 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：语音到语音翻译 DS2ST 级联系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702344

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于数据增强的印地语情感文本转语音合成及直接与级联语音到语音翻译对比研究

1. 背景与现状

语音到语音翻译（S2ST）是将一种语言的语音直接转换为另一种语言语音的过程。然而，世界上超过 40%的语言没有书面形式，为这些语言开发翻译技术是一项具有挑战性的任务。传统的 S2ST 系统采用级联方法，包括自动语音识别（ASR）、机器翻译（MT）和文本到语音合成（TTS）三个模块。但这种方法存在级联误差传播的问题，并且依赖源语言和目标语言的文本，因此为无书面形式的语言构建 S2ST 系统十分困难。

近年来，研究人员开始致力于开发直接语音到语音翻译（DS2ST）系统，不过大多数尝试在不使用语言书面形式时性能不如级联方法。同时，DS2ST 系统面临数据稀缺的问题，因为它需要并行语音数据集，而目前尝试的工作大多使用 TTS 系统生成的合成数据。数据增强是解决数据稀缺的有效方法，它可以人为增加数据的多样性，提高系统性能。

2. 研究方法

2.1 直接语音到语音翻译（DS2ST）模型

本文提出了一种基于变压器的序列到序列模型来执行 DS2ST 任务，无需辅助网络。具体步骤如下：
- 特征提取 ：从原始语音中提取 80 维梅尔滤波器组特征，分别作为编码器和解码器的输入。
- 编码器 ：由 12 个变压器层组成，隐藏单元为 256 维。输入特征通过两个 1D - CNN 层下采样到原来的四分之一大小，以减少内存消耗。每个多头注意力块包含 8 个头，前馈块使用 1024 维内部状态并接 Layer - Norm。
- 解码器

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。