声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_pape.html TTS 开源数据 低调奋进。
如转载,请标明出处:微信公众号,头条号: 低调奋进
目录
1 介绍
现有的TTS无论是single speaker model 或者multi-speaker model都需要大量高质量<text, audio>的训练数据,这将大大增加了企业的成本,而且很多小的研究机构很难获取大量高质量数据。因此,使用网络、手机等获取的生活中带有噪声数据进行模型训练引起很多研究者的兴趣。Robust TTS的目的就是使用低质量数据合成高品质音质的TTS。另外,Robust TTS研究很多与少数据量的个性化研究结合在一起,因此本问的Robust TTS研究范围包括使用噪声数据和使用少量带噪数据获取高质量的TTS。 Robust TTS需要解决的两个问题:低质量和少数据。低质量数据,顾名思义就是数据质量不高,存在许多噪音,因此如何处理噪声是首要的难题。少数据就是处理one-shot或few-shots的问题,就是如何使用几句或者几十句复刻说话者的声音,很多文章提出各种方案。
该领域发表的文章很多,我在本文主要选取以下3篇文章进行介绍,我在语音定制实验(20句话复刻声音)中,曾跑过些实验,对该方向的研究还算熟悉。
1)Disentangling correlated speaker and noise for speech synthesis via data augmentation and adversarial factorization
2) Noise Robust TTS for Low Resource Speake