声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization
本文章是国立台湾大学电气工程与计算机科学学院发表的关于声音转换的工作,本文章是把音频分解为语言特征和说话人特征,然后再进行组合,具体的文章链接
https://arxiv.org/pdf/1904.05742.pdf
demo链接
(最近搞VC,前期试验使用ppg效果还算好,但存在的缺点是效果受到ASR的制约,而且刚进入公司不久,跨组让ASR帮忙真的很不便利,因此决定不使用ppg方案,所以尝试该篇文中的方案)
1 研究背景
voice conversion是保留音频的内容而更换音频的音色,以前的VC可以被分为两类:平行数据和非平行数据。平行数据是转换设计的源音频和目标音频的内容一致,这是不容易获得的。非平行数据是源音频和目标音频的内容不一致,甚至可以跨语言,因此受到很多人的关注。目前,非平行数据可以使用GAN进行直接转换或者使用ASR作为辅助来进行转换,但效果受到ASR好坏的制约,而且这些方案不能够转换训练集外的说话人。因此本文提出了支持one-shot的音频转换方案,操作起来更加便捷。
2 详细设计
本文的整体架构如图1所示,该系