声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进
(本文稍长,希望大家看完,而不是收藏之后等以后慢慢看)
大家平时对Incremental TTS(iTTS)关注较少,可能会问iTTS是如何工作?完成那些工作?对于iTTS的介绍屈指可数,今年出来的几篇语音合成的survey(可以参考语音合成论文优选:语音合成综述(2021)https://mp.weixin.qq.com/s/m6juWxML0E_e83fvs4k0Aw)也没有相关主题的总结,因此我这里就唠一唠该方向的研究。iTTS主要是根据部分语境(当前word以及前边已经观察到的word序列)来合成音频,其研究没有被重视的原因主要其语音质量无法与整句合成效果好,但其latency理论上是纯正的streaming。再进入主题之前,我先把几个术语捋一捋。ASR很多研究涉及streaming,该streaming对应本文的increamental,因此我们称增量式tts为streaming TTS或者increamental TTS。另外,real-time语音合成系统主要特点就是latency小,因此很多文章和研究人员习惯把具备局部streaming特点的TTS也称为streaming TTS(主要latency较小),这里我们没必要较真(有位朋友曾跟我探讨过streaming TTS和real-time TTS区别,其实real-time TTS是包括streaming TTS)。接下来我们进入主题。
本文主要讲解以下的几篇文章
segment-level的iTTS
1 Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework
2019.09
https://ahcweb01.naist.jp/papers/conference/2019/201909_SSW_tomoya-ya_1/201909_SSW_tomoya-ya_1.paper.pdf
使用future context的探索研究
2 What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural TTS
2020.09.04
https://arxiv.org/pdf/2009.02035.pdf
3 Alternate Endings: Improving Prosody for

本文深入探讨增量式语音合成(iTTS)的研究,分析不同方法如何利用未来上下文提升语音质量。通过对比实验,展示了Neural iTTS、future context影响、GPT2预测等技术在降低延迟和改善语音自然度方面的应用。文章还讨论了如何结合预训练语言模型和知识蒸馏技术,优化iTTS系统的实时性和性能。
最低0.47元/天 解锁文章
1083

被折叠的 条评论
为什么被折叠?



