《An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning》论文学习
文章目录
摘要
说话人身份是人类语言的重要特征之一。在语音转换中,我们在保持语言内容不变的同时,改变说话人的身份。语音转换涉及多种语音处理技术,如语音分析、频谱转换、韵律转换、说话人特征化和声编码等。
随着理论和实践方面的最新进展,我们现在能够产生具有高说话人相似性的类似人类的声音质量。
在本文中,我们提供了从统计方法到深度学习的最先进的语音转换技术及其性能评估方法的全面概述,并讨论了它们的前景和局限性。我们还将报告最近的语音转换挑战( VCC ),当前技术状态的性能,并提供语音转换研究可用资源的摘要。
1 介绍
语音转换( VC )是人工智能的一个重要方面。它是研究如何在不改变语言内容的情况下,将一个人的声音转换成与另一个人的声音相似。语音转换属于语音合成的一个通用技术领域,它将文本转换为语音或改变语音的属性,如声音身份、情感、口音等。
斯图尔特是语音合成的先驱,他在《An electrical analogue of the vocal organs》中评论说,人工制造语音的真正困难不在于制造出可以产生语音的设备,而在于如何操作这个设备。
语音转换研究的重点是语音中语音身份的处理,是语音处理中一个具有挑战性的研究问题。
自从 20 世纪 50 年代首次提出基于计算机的语音合成技术以来,人们就一直在努力寻求有效地操纵语音特性。
20 世纪 70 年代数字信号处理技术的迅速发展,极大地促进了语音处理参数的控制。
尽管声音转换的原始动机可能是简单的新鲜感和好奇心,统计建模的技术进步深入学习对许多实际的应用程序产生重大影响,消费者受益,如个性化语音合成(《Spectral voice conversion for text-to-speech synthesis》,《Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet》),帮助言语障碍的沟通(《Towards personalised synthesised voices for individuals with vocal disabilities: Voice banking and reconstruction》),说话人身份隐藏(《Evaluating voice conversion-based privacy protection against informed attackers》),声音模仿与伪装(《Voice conversion versus speaker verification: An overview》,《Defending your voice: Adversarial attack on voice conversion》),和为电影配音。
一般来说,一个说话的人有三个特点:1)反映在句子结构、词汇选择和方言方面的语言因素;2)超音段因素,如语音信号的韵律特征;3)与短期特征相关的部分因素,如光谱和共振峰。
在语言内容固定的情况下,超音段和音段因素是影响说话人个性的相关因素。期望一种有效的语音转换技术能同时转换超音段和音段因素。
尽管取得了很大的进步,语音转换仍然远远不够完美。在本文中,我们在庆祝技术进步的同时,也暴露了它们的局限性。我们将从历史和技术的角度讨论最先进的技术。
一种典型的语音转换管道包括如下图所示的语音分析、映射和重构模块,称为分析-映射-重构管道。

语音分析器将源说话人的语音信号分解成表示超段信息和段信息的特征,然后映射模块将这些特征指向目标说话人,最后重构模块重新合成时域语音信号。
映射模块在许多研究中占据了中心地位。这些技术可以以不同的方式分类,例如基于训练数据的使用:并行与非并行,统计建模技术类型:参数和非参数,优化的范围:帧级和语句级,和工作流的转换:直接映射与语言间映射。
让我们先从训练数据的使用角度进行说明。
语音转换的早期研究主要集中在使用并行训练数据的频谱映射上,其中源说话者和目标说话者都可以使用相同语言内容的语音,例如,矢量量化( VQ )(《Voice conversion through vector quantization》)和模糊矢量量化(《Speaker adaptation and voice conversion by codebook mapping》)。
使用并行数据,可以使用动态时间扭曲(《On the impact of alignment on voice conversion performance》)来对齐两个话语。
统计参数方法可以受益于更多的训练数据以提高性能,例如高斯混合模型(《Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory》,《Probabilistic feature mapping based on trajectory HMMs》,《The NU-naist voice conversion system for the voice conversion challenge 2016》),偏最小二乘回归(《Voice conversion using partial least squares regression》)和动态核偏最小二乘回归( DKPLS )(《Voice conversion using dynamic kernel partial least squares regression》)。
其中一个成功的统计非参数技术是基于非负矩阵分解( NMF )(《Semisupervised noise dictionary adaptation for exemplar-based noise robust speech recognition》),它被称为基于范例的稀疏表示技术(《Exemplar-based voice conversion in noisy environment》,《Exemplar-based sparse representation with residual compensation for voice conversion》,《Parallel dictionary learning for multimodal voice conversion using matrix factorization》,《Cute: A concatenative method for voice conversion using exemplar-based unit selection》)。
它需要比参数化技术更少的训练数据量,并且很好地解决了过平滑问题。我们注意到,当频谱被平滑时,就会产生消声效应。
稀疏表示技术包括语音稀疏表示、组稀疏实现(《Voice conversion based on non-negative matrix factorization using phoneme-categorized dictionary》,《Sparse representation of phonetic features for voice conversion with and without parallel data》)等,大大提高了小型并行训练数据集的语音质量。
对非并行训练数据(《Cross-language voice conversion evaluation using bilingual databases》,《Text-independent voice conversion based on unit selection》,《A spectral space warping approach to cross-lingual voice transformation in HMM-based TTS》,《VTLN-based crosslanguage voice conversion》,《INCA algorithm for training voice conversion systems from nonparallel corpora》,《Frame alignment method for cross-lingual voice conversion》)语音转换的研究为新的应用开辟了机会。
难点在于如何建立非并行源语和目标语之间的映射关系。
Error 等人(《INCA algorithm for training voice conversion systems from nonparallel corpora》)提出的印加对齐技术是解决非并行数据对齐问题(《Supervisory data alignment for text-independent voice conversion》)的一种解决方案。
使用对齐技术,可以将语音转换技术从并行数据扩展到非并行数据,如扩展到 DKPLS (《Voice conversion for non-parallel datasets using dynamic kernel partial least squares regression》)和说话人模型对齐方法(《Text-independent voice conversion using speaker model alignment method from non-parallel speech》)。
语音后图,或基于 PPG 的(《Phonetic posteriorgrams for many-to-one voice conversion without parallel data training》)方法,是研究非并行训练数据的另一个方向。
基于 PPG 的对齐技术在不使用外部资源的情况下,利用自动语音识别器生成中间语音表示(《Query-by-example spoken term detection using phonetic posteriorgram templates》,《Event selection from phone posteriorgrams using matched filters》)作为说话者之间的语际语言。
成功的应用包括语音稀疏表示(《Sparse representation of phonetic features for voice conversion with and without parallel data》)。
Wu 和 Li (《Voice conversion versus speaker verification: An overview》), Mohammadi 和 Kain (《An overview of voice conversion systems》)从语音特征的时间对齐以及代表统计建模学派的特征映射的角度对语音转换系统进行了概述。
深度学习技术的出现是语音转换研究(《Transformation of formants for voice conversion using artificial neural networks》)的一个重要技术里程碑。
它不仅极大地提高了技术水平,而且改变了我们研究语音转换的方式问题。它还开辟了一个新的研究方向,超越了并行和非并行数据范式。
尽管如此,统计建模方法的研究对研究问题的许多方面提供了深刻的见解,成为当今深度学习方法论的基础工作。
在本文中,我们将概述语音转换研究,提供一个视角,揭示从统计建模到深度学习的潜在设计原则。
深度学习对语音转换的贡献可以概括为三个方面。
首先,它允许映射模块从大量的语音数据中学习,从而极大地提高了语音质量和与目标说话人的相似度。
对于神经网络,我们把映射模块看作是一个非线性转换函数(《Multilayer feedforward networks are universal approximators》),它是从数据(《Comparing ANN and GMM in a voice conversion framework》,《High quality voice conversion using prosodic and high-resolution spectral features》)中训练出来的。
LSTM 代表了一个成功的并行训练数据(《Voice conversion using deep bidirectional long short-term memory based recurrent neural networks》)的实现。
深度学习对非并行数据技术产生了巨大的影响。
DBLSTM 和 i-vector (《On the use of I-vectors and average voice model for voice conversion without parallel data》)、 KL 发散和基于 DNN 的方法(《A KL divergence and DNN-based approach to voice conversion without parallel training sentences》)、变分自动编码器(《Voice conversion from non-parallel corpora using variational auto-encoder》)、平均建模(《Average modeling approach to voice conversion with non-parallel data》)、基于 DBLSTM 的递归神经网络(《Phonetic posteriorgrams for many-to-one voice conversion without parallel data training》,《Personalized, crosslingual TTS using phonetic posteriorgrams》)和端到端 Blow 模型(《Blow: A single-scale hyperconditioned flow for non-parallel raw-audio voice conversion》)的联合使用,将语音质量提升到一个新的高度。
最近,生成式对抗网络,如 VAW-GAN (《Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks》), CycleGAN (《Parallel-data-free voice conversion using cycle-consistent adversarial networks》,《Highquality nonparallel voice conversion based on cycle-consistent adversarial network》,《Can we steal your vocal identity from the Internet?: Initial investigation of cloning Obama s voice using GAN, WaveNet and low-quality found data》),和 StarGAN (《StarGAN-VC: Nonparallel many-to-many voice conversion with star generative adversarial networks》)的多对多映射进一步推进了最先进的技术。
其次,深度学习对声编码技术产生了深远的影响。
语音分析和重构模块通常使用传统参数声码器(《Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory》,《Probabilistic feature mapping based on trajectory HMMs》,《The NU-naist voice conversion system for the voice conversion challenge 2016》,《A comparison between straight, glottal, and sinusoidal vocoding in statistical parametric speech synthesis》)来实现。
这种声码器的参数是根据信号处理中一些过于简化的假设手工调整的。因此,参数声码器提供了一个次优的解决方案。
神经声码器是一种神经网络,它学习从声学特征(《A comparison of recent waveform generation and acoustic modeling methods for neural-network-based speech synthesis》)重建音频波形。
第一次,神经声码器变得可训练和数据驱动。
WaveNet 声码器(《An investigation of multi-speaker training for wavenet vocoder》)代表了一种流行的神经声码器,它直接从输入特征向量中估计波形样本。
人们对它进行了深入的研究,例如,与扬声器相关和独立的 WaveNet 声码器(《An investigation of multi-speaker training for wavenet vocoder》,《Speaker-dependent wavenet vocoder》),准周期 WaveNet 声码器(《Quasiperiodic wavenet vocoder: A pitch dependent dilated convolution model for parametric speech generation》,《Statistical voice conversion with quasi-periodic wavenet vocoder》), GANs (《Adaptive wavenet vocoder for residual compensation in GAN-based voice conversion》)的自适应 WaveNet 声码器,分解的 WaveNet 声码器(《Wavenet factorization with singular value decomposition for voice conversion》),以及 VAEs (《Refined wavenet vocoder for variational autoencoder based voice conversion》)的精炼 WaveNet 声码器,这些都以其自然发声的音质而著名。
在传统的语音转换管道中,如 GMM (《Speaker-dependent wavenet vocoder》)、稀疏表示(《A voice conversion framework with tandem feature sparse representation and speaker-adapted wavenet vocoder》,《Group sparse representation with WaveNet Vocoder adaptation for spectrum and prosody conversion》)系统中, WaveNet 声码器被广泛采用。
其他成功的神经声码器包括 WaveRNN 声码器(《Efficient neural audio synthesis》)、 WaveGlow (《WaveGlow: A flow-based generative network for speech synthesis》)和 FloWaveNet (《Flowavenet: A generative flow for raw audio》),它们本身都是优秀的声码器。
第三,深度学习代表了对传统的分析-映射-重建方法的背离。以上所有技术主要遵循前文提到的语音转换管道。
神经声码器是可训练的,可以与映射模块(《Adaptive wavenet vocoder for residual compensation in GAN-based voice conversion》)甚至分析模块共同训练,成为端到端解(《Wavenet: A generative model for raw audio》)。
语音转换研究曾经是语音合成中的一个小领域。然而,这已经成为近年来的一个主要话题。
在第 45 届国际声学、语音和信号处理会议( ICASSP 2020 )上,语音转换论文占语音合成类论文的三分之一以上。
学术界和产业界的合作活动加速了研究社区的增长,例如 2016 年语音转换挑战( VCC ),该挑战首次在 INTERSPEECH 2016 年发布(《The voice conversion challenge》,《Multidimensional scaling of systems in the voice conversion challenge》,《Analysis of the voice conversion challenge 2016 evaluation results》)。
VCC 2016 专注于最基本的语音转换任务,即对 acoustic studio 中记录的并行训练数据进行语音转换。它建立了绩效基准的评估方法和协议,在社区中广泛采用。
VCC 2018 (《The voice conversion challenge: Promoting development of parallel and nonparallel methods》,《The voice conversion challenge 2018: Database and results》,《NU voice conversion system for the voice conversion challenge 2018》)提出了一个非并行训练数据挑战,并将语音转换与说话人验证研究的抗欺骗连接起来
VCC 2020 首次提出了跨语言语音转换挑战。我们将在本文中概述这一系列的挑战和公共资源。
本文的工作组织如下:在第二节中,我们介绍了语音转换的典型流程,包括特征提取、特征映射和波形生成。
在第三节中,我们研究了使用并行训练数据进行语音转换的统计建模。
在第四节中,我们研究了在没有并行训练数据的情况下语音转换的统计建模。
在第五节中,我们研究了使用并行训练数据进行语音转换的深度学习方法,并超越了并行训练数据。
在第六节中,我们解释了语音转换的评估技术。
在第七节和第八节中,我们总结了一系列语音转换的挑战,以及公开可用的语音转换研究资源。
我们在第九节总结。
2 典型语音转换流程
语音转换的目的是修改源说话人的声音,使其听起来好象是由目标说话人产生的。
换句话说,语音转换系统只修改与说话人相关的特征,如共振峰、基本频率( F0 )、语调、强度和持续时间,而保留与说话人无关的语音内容。
语音转换系统的核心模块实现语音转换功能。
我们将源语音信号表示为 x ,目标语音信号表示为 y 。
如后面将要讨论的,语音转换通常应用于语音的一些中间表示,或语音特征,这些特征是语音框架的特征。
我们用 x 和 y 表示源语音和目标语音特征。转换函数可以表示为:

其中 F(·) 在本文的其余部分中也称为帧映射函数。
如前文所示,一个典型的语音转换框架是由三个步骤实现的:1)语音分析;2)特征映射;3)语音重建;我们称之为分析-映射-重建管道。我们接下来再详细讨论。
2.1 语音分析与重构
语音分析与重构是这三个过程中的两个关键过程。
语音分析的目标是将语音信号分解为某种中间表示形式,以便对语音的声学特性进行有效的处理或修改。
在语音通信和语音合成方面,有很多有用的中间表示技术。它们对语音转换很方便。
一般来说,这些技术可以分为基于模型的表示和基于信号的表示。
在基于模型的表示中,我们假设语音信号是根据底层的物理模型(如源滤波器模型)生成的,并将一帧语音信号表示为一组模型参数。通过修改参数,我们可以对输入语音进行操作。
在基于信号的表示中,我们不假设任何模型,而是将语音表示为时域或频域可控元素的组成。
让我们用 x 表示源说话者的中间表示,语音分析可以用一个函数来描述:

语音重构可以看作是语音分析的逆函数,对修改后的参数进行操作,产生可听的语音信号。它与语音分析串联工作。
例如,声码器(《A comparison between straight, glottal, and sinusoidal vocoding in statistical parametric speech synthesis》)用于表达具有一组可转换回语音波形的可控参数的语音帧。
采用 Griffin-Lim 算法,通过幅度修正后的修正短时傅里叶变换重构语音信号(《Signal estimation from modified short-time Fourier transform》)。
由于语音重构过程会影响输出语音的质量,因此语音重构也是语音转换研究中的重要课题之一。
将改进的中间表示和目标说话人的重构语音信号表示为 y 和 y = R(y) ,语音转换可由三个函数组成来描述:

它表示语音转换系统的典型流程为一个三步管道。
当逐帧进行映射时,如果在此过程中不修改语音持续时间,则转换后的语音特征个数 y 与源语音特征个数 x 相同。
语音分析和重构使语音转换成为可能,但就像其他信号处理技术一样,它们也不可避免地引入了伪影。许多研究都致力于将这些伪影降到最低。
接下来我们将讨论语音转换中最常用的语音分析和重构技术。
1)基于信号表示:
基音同步叠加加( PSOLA )是基于信号的表示技术的一个例子。
它将语音信号分解成重叠的语音片段(《Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones》),每个片段代表语音信号的一个连续音高周期。通过将这些语音片段与不同的音高周期重叠和相加,我们可以重构出不同语调的语音信号。由于 PSOLA 直接对时域语音信号进行操作,分析和重构不会引入显著的伪影。
尽管PSOLA技术可以有效地修改语音信号的基频,但它受到一些固有的限制(《Voice transformation using psola technique》,《Speaker transformation algorithm using segmental codebooks (STASC)》)。例如,未发声语音信号不是周期性的,时域信号的处理也不是简单的。
谐波加噪声模型( HNM )是另一种基于信号的表示方法。
它的工作原理是,语音信号可以表示为一个谐波分量加上一个以最大浊音频率为界限的噪声分量(《Applying the harmonic plus noise model in concatenative speech synthesis》)。
谐波分量被建模为谐波正弦波直到最大浊音频率的总和,而噪声分量被建模为高斯噪声,经过时变自回归滤波器滤波。
由于 HNM 分解是用一些可控的参数来表示的,因此可以方便地修改语音(《A system for voice conversion based on probabilistic classification and a harmonic plus noise model》,《Weighted frequency warping for voice conversion》)。
2)基于模型表示:
基于模型的技术假设输入信号可以用一个参数随时间变化的模型来表示。
一个典型的例子是源-滤波器模型,该模型将语音信号表示为由喉上声道形状决定的传递(滤波器)函数调制的喉头(源)激励的结果
声码器是一种语音编码器的缩写形式,最初是为了将语音通信所传输的数据量最小化而开发的。
它将语音编码成缓慢变化的控制参数,如线性预测编码和梅尔对数频谱近似(《Mel log spectrum approximation (MLSA) filter for speech synthesis》),这些参数描述了滤波器,并在接收端用源信息重新合成语音信号。
在语音转换中,我们通过修改可控制的参数,将源说话人的语音信号转换成目标说话人的语音信号。
大多数声码器是基于某种形式的语音产生源-滤波器模型设计的,例如带频谱包络的混合激励和声门声码器(《A comparison between straight, glottal, and sinusoidal vocoding in statistical parametric speech synthesis》)。
在语音合成和语音转换中, STRAIGHT 或基于加权谱自适应插值的语音转换与表示是最常用的语音编码器之一(《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency-based f0 extraction: Possible role of a repetitive structure in sounds》)。
它把语音信号分解成:1)在时间和频率上没有周期性的平滑谱图;2)一种用不动点算法估计的基频( F0 )轮廓;3)一种时频周期图,它捕获了噪声的频谱形状及其时间包络线。
STRAIGHT 在语音转换中被广泛使用,因为它的参数表示便于语音的统计建模,这允许对语音的简单操作(《Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory》,《Voice conversion using artificial neural networks》,《Wavelet analysis of speaker dependent and independent prosody for voice conversion》)。
参数化声码器在语音转换研究(《Voice conversion through vector quantization》,《Speaker adaptation and voice conversion by codebook mapping》,《Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory》,《Probabilistic feature mapping based on trajectory HMMs》,《Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks》,《Parallel-data-free voice conversion using cycle-consistent adversarial networks》,《Unsupervised learning of disentangled and interpretable representations from sequential data》,《Learning latent representations for speech generation and transformation》)中被广泛应用于语音分析和重构,至今(《Exemplar-based voice conversion in noisy environment》,《Voice conversion based on non-negative matrix factorization using phoneme-categorized dictionary》,《Sparse representation of phonetic features for voice conversion with and without parallel data》)仍发挥着重要作用。
传统的参数化声码器是在一定的简化假设下近似人类语音产生的复杂机制。
例如,忽略 F0 与共振峰结构之间的相互作用,丢弃原来的相位结构(《Digital speech processing, synthesis, and recognition(revised and expanded)》)。
短时间窗内的平稳过程假设和定常线性滤波也会导致“机器语音”和“嗡嗡声”的产生。
当我们同时对 F0 和共振峰结构进行修改时,这些问题在语音转换中变得更加严重。
我们认为语音编码可以通过考虑参数之间的相互作用来改进。
3)WaveNet 声码器:
深度学习为参数化声码器的一些固有问题提供了解决方案。
WaveNet (《Wavenet: A generative model for raw audio》)是一种深度神经网络,它学习生成高质量的时域波形。由于它不假设任何数学模型,它是一个数据驱动的解决方案,需要大量的训练数据。
波形 X = x1, x2, …, xn 的联合概率可以分解为条件概率的乘积。

一个 WaveNet 是由许多剩余块构成的,每个块由 2 × 1 个扩展的因果卷积,一个门控激活函数和 1 × 1 的卷积组成。
通过附加辅助特征 h , WaveNet 也可以模拟条件分布 p(x|h) 。上图也可写成如下形式:

一个典型的参数化声码器可以对语音进行分析和重建。然而,目前大多数的 WaveNet 声码器只涵盖语音重建的功能。它以语音的一些中间表示形式作为输入辅助特征,生成语音波形作为输出。
WaveNet 声码器(《An investigation of multi-speaker training for wavenet vocoder》)在音质方面显著优于传统参数声码器。
它不仅可以学习输入特征与输出波形之间的关系,而且可以学习输
深度学习驱动的语音转换技术综述

本文综合评述了从统计建模到深度学习的语音转换技术,探讨其性能评估与应用场景,包括个性化语音合成、助残沟通、说话人隐私保护等。深入分析深度学习方法,如DNN、LSTM、CycleGAN及VAE-GAN,如何改进语音特征映射,提升非并行数据下的转换质量。
最低0.47元/天 解锁文章
1852

被折叠的 条评论
为什么被折叠?



