零样本歌唱语音转换:基于音色空间建模与激励信号控制
1. 歌唱语音转换技术概述
在人类日常生活中,歌唱扮演着重要的角色,涵盖信息传递、情感表达和娱乐等方面。歌唱语音转换(SVC)旨在将源歌手的歌声转换为目标歌手的声音,同时保持内容和旋律不变。赋予机器生成高保真和富有表现力的歌声能力,为人类与计算机的交互开辟了新途径,而SVC正是实现这一目标的可行方法之一。
近年来,使用非平行数据的歌唱语音转换技术受到了更多关注,因为它不依赖稀缺的平行语音数据集。非平行SVC的关键在于将歌唱语音中的语言内容信息和音色信息分离,并利用目标歌手的音色嵌入来生成语音。大多数近期的SVC方法会训练一个内容编码器来从源歌唱语音中提取内容特征,以及一个转换模型将内容特征转换为声学特征或波形。内容编码器和转换模型可以作为自编码器进行联合训练,例如基于WaveNet的自编码器已被用于无监督SVC,并能在训练集中出现的歌手之间进行转换。此外,SVC方法也可以分别训练内容编码器和转换模型,使用预训练的自动语音识别(ASR)模型作为内容编码器来获取与说话者无关的语音特征(PPGs)。转换模型可以直接从内容特征生成波形,如使用生成对抗网络(GANs);或者将内容特征转换为频谱特征(如梅尔频谱图),转换模型架构包括GANs、变分自编码器(VAEs)、扩散模型等,然后利用单独训练的神经声码器生成波形。
尽管SVC方法近期取得了成功,能够生成高质量的歌唱语音,但仍存在一些问题,如音高抖动和伪影,这会降低转换语音的质量。源歌手和目标歌手的音高范围往往差异显著,这使得在不影响与目标歌手相似度的情况下保留源歌唱语音的旋律变得困难。此外,大多数现有方法需要目标歌手的训练数据来训练模型,而零样本歌唱语音转换方法的性能和鲁棒性尚未得到充分
超级会员免费看
订阅专栏 解锁全文
1418

被折叠的 条评论
为什么被折叠?



