【论文学习】《Defending Your Voice: Adversarial Attack on Voice Conversion》

本文提出了一种新的方法,通过引入微小的噪音扰动来保护个人的声音免受先进的语音转换技术的不当使用。该方法能够有效地改变语音转换后的说话人特征,同时保持原始语音的自然度。

《Defending Your Voice: Adversarial Attack on Voice Conversion》论文学习

  摘要

       近年来,语音转换在不改变话语语言内容的前提下,将某一条语音的说话人特征转换为另一条语音的说话人特征。尽管如此,改进的转换技术也引发了对隐私和认证的担忧。因此,非常希望能够阻止自己的声音被这种语音转换技术不当使用。这就是为什么我们在这篇论文报告第一个已知的对执行对抗性攻击语音转换的尝试。我们在需要被保护的说话人的语音中引入了人类难以察觉的噪声扰动。考虑到这些对抗样本,语音转换模式不能转换其他话语,使其听起来像是由被保护的说话者产生的。初步实验是在两个目前最先进的零资源语音转换模型上进行的。报告了白盒和黑盒两种情况下的客观和主观评价结果。结果表明,转换后语音的说话人特征明显不同于被保护的说话人特征,而受到保护的说话人的语音对抗样本与真实语音没有明显的区别。
       
       关键词 : 语音转换,对抗攻击,说话人验证,说话人表征
       

  1 介绍

       语音转换的目的是在保留语言内容的同时,改变语音的某些特定声学特征,如说话人的身份。通过深度学习,这些技术变得更加强大(《Multi-target voice conversion without parallel data by adversarially learning disentangled audio representations》,《Cyclegan-vc2: Improved cyclegan-based non-parallel voice conversion》,《Stargan-vc: Non-parallel many-tomany voice conversion using star generative adversarial networks》,《One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization》,《AutoVC: Zero-shot voice style transfer with only autoencoder loss》),但改进的技术也导致了对隐私和认证的担忧。一个人的身份可能会被语音转换伪造,并以不正当的方式利用,这只是目前通过深度学习观察到的许多深度伪造问题之一,如合成的假照片或假声音。因此,检测任何此类伪造或防范此类活动变得越来越重要(《A comparison of features for synthetic speech detection》,《The deepfake detection challenge dataset》,《Exposing deepfake videos by detecting face warping artifacts》,《Fakecatcher: Detection of synthetic portrait videos using biological signals》),这同样适用于语音转换。
       
       另一方面,众所周知,神经网络在某些特定的噪声面前是脆弱的;如果输入信号受到这种人类察觉不到的细微扰动的干扰,神经网络就容易产生不同的或错误的结果(《Intriguing properties of neural networks》)。对抗性攻击是产生微小的扰动来欺骗神经网络。它在一些判别模型上取得了成功(《Explaining and harnessing adversarial examples》,《Adversarial machine learning at scale》,《Towards deep learning models resistant to adversarial attacks》),但对生成模型(《Adversarial examples for generative models》)的报道较少。
       
       在本文中,我们建议对语音转换进行对抗性攻击,以防止某一说话人的特征在语音转换中被不当利用。在要保护的说话人所发出的语音中加入了人所察觉不到的干扰。提出了端到端攻击、嵌入攻击和反馈攻击三种不同的攻击方法,使被转换语音的说话人特征与被防御语音的说话人特征有很大的不同。我们对两种最新的零资源语音转换模型进行了客观和主观评价。客观说话人验证结果表明,转换后的语音与被保护人产生的语音存在显著差异,并通过主观相似度测试进行验证。通过一个更接近实际应用场景的代理模型,验证了所提方法对黑箱攻击的有效性。
       

  2 相关工作

    2.1 语音转换

       传统上,语音转换需要并行数据,或者两个说话人的训练话语必须成对并对齐。为了克服这一问题,Chou等人(《Multi-target voice conversion without parallel data by adversarially learning disentangled audio representations》)通过对抗性训练分别获得了语言内容和说话人信息的解纠缠表示;CycleGAN-VC(《Cyclegan-vc2: Improved cyclegan-based non-parallel voice conversion》)使用循环一致性来确保转换后的语音具有符合目标说话人特征的有意义语言;StarGAN-VC(《Stargan-vc: Non-parallel many-tomany voice conversion using star generative adversarial networks》)引入了多对多语音转换的条件输入。所有这些都仅限于在训练阶段出现过的说话人。
       
       然后,零资源方法尝试将语音转换为任何一个说话人,且只给出一个例子,而不进行微调,目标说话者不一定是之前见过的。Chou等人(《One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization》)为此目的采用了自适应实例归一化;AUTOVC(《AutoVC: Zero-shot voice style transfer with only autoencoder loss》)集成了预先训练的d-vector和编码器瓶颈,实现了最先进的结果。
       

    2.2 声音的攻击与防御

       自动语音识别(ASR)系统已被证明容易受到对抗性攻击。对波形、谱图或MFCC特征施加扰动,可以使ASR系统不能正确识别语音(《Audio adversarial examples: Targeted attacks on speech-to-text》,《Adversarial attacks against automatic speech recognition systems via psychoacoustic hiding》,《Did you hear that? adversarial examples against automatic speech recognition》,《Targeted adversarial examples for black box audio systems》,《Houdini: Fooling deep structured visual and speech recognition models with adversarial examples》)。在说话人识别上也实现了类似的目标,通过生成对抗性的例子来欺骗自动说话人验证(ASV)系统,使其预测这些例子是由某个特定的说话人说的(《Adversarial attacks on spoofing countermeasures of automatic speaker verification》,《Adversarial attacks on gmm i-vector based speaker verification systems》,《Fooling end-to-end speaker verification with adversarial examples》)。还提出了不同的欺骗ASV的方法来显示这些系统的脆弱性(《Vulnerability of speaker verification to voice mimicking》,《A study on spoofing attack in state-of-theart speaker verification: the telephone speech case》,《Spoofing and countermeasures for automatic speaker verification》)。但据我们所知,在语音转换中应用对抗性攻击尚未见报道。
       
       另一方面,当ASV系统显示出易受欺骗攻击时,许多方法被提出来保护一个人的声音(《Deep features for automatic spoofing detection》,《Audio replay attack detection with deep learning frameworks》,《An end-to-end spoofing countermeasure for automatic speaker verification using evolving recurrent neural networks》,《You can hear but you cannot steal: Defending against voice impersonation attacks on smartphones》)。除了ASVspoof对欺骗技术和对策(《ASVspoof 2019: Future Horizons in Spoofed and Fake Audio Detection》)的挑战,Liu等人(《Adversarial attacks on spoofing countermeasures of automatic speaker verification》)[对这些对策进行对抗性攻击,显示出它们的脆弱性。显然,所有的神经网络模型都面临着对抗性攻击(《Explaining and harnessing adversarial examples》)的威胁,这导致了本文提出的攻击语音转换模型的想法。
       

  3 方法论

       一种广泛应用的语音转换模型采用了编解码器结构,该结构将编码器进一步分为内容编码器和说话人编码器,如图1所示。本文也是基于这个模型。内容编码器 E c E_c Ec从输入语音 t t t中提取内容信息产生 E c ( t ) E_c(t) Ec(t),而说话人编码器 E s E_s Es则将输入语音 x x x的说话人特征嵌入到潜在向量 E s ( x ) E_s(x) Es(x)中,如图1的左侧所示。解码器 D D D E c ( t ) E_c(t) Ec(t) E s ( x ) E_s(x) Es(x)为输入,生成包含基于 E c ( t ) E_c(t) Ec(t)内容信息和基于 E s ( x ) E_s(x) Es(x)说话人特征的谱图 F ( t , x ) F(t, x) F(t,x)
图1
       这里我们只关注输入到说话人编码器的语音,因为我们是在保护这些语音提供的说话人特征。在之前的工作(《Adversarial examples for generative models》)的激励下,这里我们提出了三种实施攻击的方法,目标是输出谱图 F ( t , x ) F(t, x) F(t,x)(第3.1节),或说话人嵌入 E s ( x ) E_s(x) Es(x)(第3.2节),或两者的组合(第3.3节),如图1所示。
       

    3.1 端到端攻击

       对图1中的上述模型进行对抗性攻击的一种直接方法是将解码器输出 F ( t , x ) F(t, x) F(t,x)作为目标,也称为端到端攻击,如图1所示。将被保护的说话人所产生的原始声谱图表示为 x ∈ R M × T x \in \mathbb{R}^{M \times T} xRM×T,将对 x x x的对抗性扰动表示为 δ ∈ R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值