语音合成(speech synthesis)方向二:鲁棒TTS(Robust TTS)

本文探讨了鲁棒TTS在处理低质量和少数据问题上的研究,特别是利用噪声数据训练模型以生成高质量语音。介绍了3篇相关论文,强调了噪声表征学习和嵌入的重要性,并讨论了在预训练模型基础上进行个性化语音定制的方法。实验结果显示,这些方法能有效提升合成音频的质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_pape.html TTS 开源数据 低调奋进

如转载,请标明出处:微信公众号,头条号: 低调奋进


目录

1 介绍

2 内容详解

3 总结

4 引用



1 介绍


          现有的TTS无论是single speaker model 或者multi-speaker model都需要大量高质量<text, audio>的训练数据,这将大大增加了企业的成本,而且很多小的研究机构很难获取大量高质量数据。因此,使用网络、手机等获取的生活中带有噪声数据进行模型训练引起很多研究者的兴趣。Robust TTS的目的就是使用低质量数据合成高品质音质的TTS。另外,Robust TTS研究很多与少数据量的个性化研究结合在一起,因此本问的Robust TTS研究范围包括使用噪声数据和使用少量带噪数据获取高质量的TTS。 Robust TTS需要解决的两个问题:低质量和少数据。低质量数据,顾名思义就是数据质量不高,存在许多噪音,因此如何处理噪声是首要的难题。少数据就是处理one-shot或few-shots的问题,就是如何使用几句或者几十句复刻说话者的声音,很多文章提出各种方案。
          该领域发表的文章很多,我在本文主要选取以下3篇文章进行介绍,我在语音定制实验(20句话复刻声音)中,曾跑过些实验,对该方向的研究还算熟悉。
1)Disentangling correlated speaker and noise for speech synthesis via data augmentation and adversarial factorization
2) Noise Robust TTS for Low Resource Speake

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值