【论文学习】《Adversarial Attacks on GMM i-vector based Speaker Verification Systems》

该研究探讨了基于GMM的i-vector说话人验证系统对对抗攻击的脆弱性,以及这些对抗样本在x-vector系统中的可迁移性。实验表明GMMi-vector系统在白盒和黑盒攻击下表现脆弱,且构建的对抗样本能有效攻击x-vector系统。此外,ABX测试验证了人类无法察觉对抗样本与原始音频的差异。

《Adversarial Attacks on GMM i-vector based Speaker Verification Systems》论文学习

  摘要

       本文研究了基于高斯混合模型(GMM) i-vector的说话人验证系统对对抗攻击的脆弱性,以及GMM i-vector系统对x-vector系统制作的对抗样本的可迁移性。详细地说,我们制定了GMM i-vector系统作为登记和测试语音对的评分函数。然后,我们利用快速梯度符号法(FGSM)来优化测试话语的对抗样本生成。这些对抗性样本用于攻击GMMi-vectorx-vector系统。我们通过等错误率和误接受率的降低来衡量系统的脆弱性。实验结果表明,GMM i-vector系统在对抗攻击下非常脆弱,所构建的对抗样本具有可转移性,并对基于神经网络说话人嵌入的系统(如x-vector系统)构成威胁。
       
       关键词对抗攻击说话人验证GMM i-vectorx-vector
       

  1 介绍

       自动说话人验证(ASV)系统的目的是对声明的说话人身份进行确认。经过几十年的发展,说话人验证领域取得了很大的进步,并将该技术应用于许多生物识别认证案例,如电子设备中的语音激活、电子银行认证等。
       
       然而,过去的研究表明,ASV系统容易受到假冒(《A comparison between human perception and a speaker verification system score of a voice imitation》,《Spoofing and countermeasures for speaker verification: A survey》)、重放(《Spoofing and countermeasures for speaker verification: A survey》,《A study on replay attack and anti-spoofing for text-dependent speaker verification》)、语音合成(《Examining vulnerability of voice verification systems to spoofing attacks by means of a TTS system》,《Vulnerability of voice verification systems to spoofing attacks by tts voices based on automatically labeled telephone speech》)和语音转换(《Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech》)等欺骗语音的恶意攻击。在这四种欺骗攻击中,重放攻击、语音合成攻击和语音转换攻击是ASV系统面临的最严重的威胁。创建的欺骗语音听起来可能非常接近目标人的声音。此外,ASV系统也可能被听起来像冒名顶替者的声音欺骗。这将使系统面临其他一些危险情况,例如,在不知情的情况下,被冒充者代替真正的主人控制语音设备。这些威胁可能由对抗攻击造成。
       
       《Intriguing properties of neural networks》,《On adversarial examples for character-level neural machine translation》,《Explaining and harnessing adversarial examples》的研究表明,性能优异的深度神经网络(DNNs)在许多任务中,如人脸识别(《Are imageagnostic universal adversarial perturbations for face recognition difficult to detect?》,《Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition》)、图像分类(《Delving into transferable adversarial examples and black-box attacks》,《Synthesizing robust adversarial examples》)、语音识别(《Audio adversarial examples: Targeted attacks on speech-to-text》)等,容易受到简单的对抗攻击。然而,据我们所知,唯一将对抗攻击应用于ASV系统的工作是(《Fooling end-to-end speaker verification with adversarial examples》),它验证了端到端ASV系统对对抗攻击的脆弱性。简单地说,有三种具有代表性的ASV框架:基于i-vector说话人嵌入的系统(《Front-end factor analysis for speaker verification》,《A small footprint i-vector extractor》,《Probabilistic linear discriminant analysis for inferences about identity》,《Analysis of i-vector length normalization in speaker recognition systems》),基于神经网络(NN)说话人嵌入的系统(《Deep neural networks for small footprint textdependent speaker verification》,《X-vectors: Robust DNN embeddings for speaker recognition》)和端到端方法(《End-to-end attention based text-dependent speaker verification》,《End-to-end text-dependent speaker verification》,《Deep neural network-based speaker embeddings for end-to-end speaker verification》)。尽管端到端系统已被证明容易受到对抗攻击,但其他方法的鲁棒性,包括基于GMM i-vector的系统和基于NN说话人嵌入的系统(例如我们实现的x-vector系统),仍有待探索。基于GMM i-vector的系统广泛应用于生物特征认证,研究其对此类攻击的鲁棒性势在必行。
       
       对抗攻击旨在以一种有目的设计的方式干扰系统输入,使系统行为不正确。这些干扰通常是微妙的,以致于人类无法察觉对抗输入和原始输入之间的差异。主要有两种攻击场景:白盒攻击和黑盒攻击。白盒攻击允许攻击者访问系统的完整参数,使系统功能可以直接参与优化输入扰动。黑盒攻击者只能访问系统的输入和输出,而对抗样本通常是由其他替代系统制作的。
       
       对于对抗样本的生成,之前提出了许多算法来解决扰动优化问题,如快速梯度符号法(FGSM)(《Explaining and harnessing adversarial examples》),基本迭代法(BIM)(《Adversarial machine learning at scale》)和DeepFool(《Deepfool: a simple and accurate method to fool deep neural networks》)。在本研究中,我们简单地采用FGSM来验证ASV系统对对抗性攻击的脆弱性。
       
       本文主要研究了GMM i-vector系统对对抗性攻击的脆弱性,以及从i-vector系统到x-vector系统制作的对抗样本的可迁移性。具体来说,我们对GMMi-vector系统进行白盒攻击和黑盒攻击,对x-vector系统进行黑盒攻击。详细的攻击配置见第3节。本文采用FGSM(《Explaining and harnessing adversarial examples》)进行对抗扰动优化。我们的代码是开源的。
       
       本文的组织结构如下。第二节介绍了实验中采用的ASV系统。对抗攻击配置和FGSM优化算法在第3节中进行了说明。第4节和第5节分别描述了实验设置和结果。最后,第6节对本文进行了总结。
       

  2 自动说话人验证系统

       实验工作包括GMMi-vector系统和x-vector系统。两种系统均由两部分组成:前端用于语音级说话人嵌入提取,后端用于说话人相似度评分。所有实验均采用概率线性判别分析(PLDA)后端。
       

    2.1 高斯混合模型 i-vector提取

图1
       GMM i-vector提取器(《Front-end factor analysis for speaker verification》)的示意图如图1所示。它由高斯混合模型-通用背景模型(GMM-UBM)和总变率矩阵( T T T矩阵)组成。考虑到语音 i i i的声学特征,利用GMM-UBM通过Baum-Welch统计量计算提取零阶( N i N_i Ni)和一阶( f ~ i \tilde{f}_i f~i)统计量。将统计信息与 T T T矩阵结合,提取i-vector ω i ωi ωi,如公式1所示:
ω i = L i − 1 T ⊤ ( Σ ( b ) ) − 1 f ~ i (1) \omega_i = L_i^{-1}T^{\top}(Σ^{(b)})^{-1}\tilde{f}_i \tag{1} ωi=Li1T(Σ(b))1f~i(1)       式中, L i = I + T ⊤ ( Σ ( b ) ) − 1 N i T L_i = I + T^{\top}(Σ^{(b)})^{-1}N_iT Li=I+T(Σ(b))1NiT, I I I是单位矩阵, Σ ( b ) Σ^{(b)} Σ(b)GMM-UBM的协方差矩阵。
       

    2.2 x-vector提取

       x-vector提取器(《X-vectors: Robust DNN embeddings for speaker recognition》)利用DNN产生说话人区分嵌入。它由框架级和语句级提取器组成。在帧级,声学特征由几层时延神经网络(TDNN)前馈。在语音层,统计池化层对最后一帧层的输出进行汇总,并计算其均值和标准差。将平均值和标准差串联在一起,通过语音级层和softmax输出层进行传播。在测试阶段,给定语音的声学特征,提取嵌入层输出作为x-vector
       

    2.3 后端概率线性判别分析

       PLDA是一个监督版本的因子分析(《Introduction to factor analysis》)。它通过公式2模型i-vector/x-vector( ω ω ω)
ω = m + Φ β + ϵ r (2) \omega = m+\Phi \beta+\epsilon_r \tag{2} ω=m+Φβ+ϵr(2)       其中 m m m是全局偏置项, Φ \Phi Φ的列提供了特定于说话人子空间的基础, β ∈ N ( 0 , I ) \beta \in N(0, I) βN(0,I)是潜在的说话人身份向量。残差项 ϵ r ∈ N ( 0 , Σ ) \epsilon_r \in N(0, Σ) ϵrN(0,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值