《Adversarial Attacks on GMM i-vector based Speaker Verification Systems》论文学习
文章目录
摘要
本文研究了基于高斯混合模型(GMM) i-vector的说话人验证系统对对抗攻击的脆弱性,以及GMM i-vector系统对x-vector系统制作的对抗样本的可迁移性。详细地说,我们制定了GMM i-vector系统作为登记和测试语音对的评分函数。然后,我们利用快速梯度符号法(FGSM)来优化测试话语的对抗样本生成。这些对抗性样本用于攻击GMM的 i-vector和 x-vector系统。我们通过等错误率和误接受率的降低来衡量系统的脆弱性。实验结果表明,GMM i-vector系统在对抗攻击下非常脆弱,所构建的对抗样本具有可转移性,并对基于神经网络说话人嵌入的系统(如x-vector系统)构成威胁。
关键词:对抗攻击,说话人验证,GMM i-vector,x-vector
1 介绍
自动说话人验证(ASV)系统的目的是对声明的说话人身份进行确认。经过几十年的发展,说话人验证领域取得了很大的进步,并将该技术应用于许多生物识别认证案例,如电子设备中的语音激活、电子银行认证等。
然而,过去的研究表明,ASV系统容易受到假冒(《A comparison between human perception and a speaker verification system score of a voice imitation》,《Spoofing and countermeasures for speaker verification: A survey》)、重放(《Spoofing and countermeasures for speaker verification: A survey》,《A study on replay attack and anti-spoofing for text-dependent speaker verification》)、语音合成(《Examining vulnerability of voice verification systems to spoofing attacks by means of a TTS system》,《Vulnerability of voice verification systems to spoofing attacks by tts voices based on automatically labeled telephone speech》)和语音转换(《Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech》)等欺骗语音的恶意攻击。在这四种欺骗攻击中,重放攻击、语音合成攻击和语音转换攻击是ASV系统面临的最严重的威胁。创建的欺骗语音听起来可能非常接近目标人的声音。此外,ASV系统也可能被听起来像冒名顶替者的声音欺骗。这将使系统面临其他一些危险情况,例如,在不知情的情况下,被冒充者代替真正的主人控制语音设备。这些威胁可能由对抗攻击造成。
《Intriguing properties of neural networks》,《On adversarial examples for character-level neural machine translation》,《Explaining and harnessing adversarial examples》的研究表明,性能优异的深度神经网络(DNNs)在许多任务中,如人脸识别(《Are imageagnostic universal adversarial perturbations for face recognition difficult to detect?》,《Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition》)、图像分类(《Delving into transferable adversarial examples and black-box attacks》,《Synthesizing robust adversarial examples》)、语音识别(《Audio adversarial examples: Targeted attacks on speech-to-text》)等,容易受到简单的对抗攻击。然而,据我们所知,唯一将对抗攻击应用于ASV系统的工作是(《Fooling end-to-end speaker verification with adversarial examples》),它验证了端到端ASV系统对对抗攻击的脆弱性。简单地说,有三种具有代表性的ASV框架:基于i-vector说话人嵌入的系统(《Front-end factor analysis for speaker verification》,《A small footprint i-vector extractor》,《Probabilistic linear discriminant analysis for inferences about identity》,《Analysis of i-vector length normalization in speaker recognition systems》),基于神经网络(NN)说话人嵌入的系统(《Deep neural networks for small footprint textdependent speaker verification》,《X-vectors: Robust DNN embeddings for speaker recognition》)和端到端方法(《End-to-end attention based text-dependent speaker verification》,《End-to-end text-dependent speaker verification》,《Deep neural network-based speaker embeddings for end-to-end speaker verification》)。尽管端到端系统已被证明容易受到对抗攻击,但其他方法的鲁棒性,包括基于GMM i-vector的系统和基于NN说话人嵌入的系统(例如我们实现的x-vector系统),仍有待探索。基于GMM i-vector的系统广泛应用于生物特征认证,研究其对此类攻击的鲁棒性势在必行。
对抗攻击旨在以一种有目的设计的方式干扰系统输入,使系统行为不正确。这些干扰通常是微妙的,以致于人类无法察觉对抗输入和原始输入之间的差异。主要有两种攻击场景:白盒攻击和黑盒攻击。白盒攻击允许攻击者访问系统的完整参数,使系统功能可以直接参与优化输入扰动。黑盒攻击者只能访问系统的输入和输出,而对抗样本通常是由其他替代系统制作的。
对于对抗样本的生成,之前提出了许多算法来解决扰动优化问题,如快速梯度符号法(FGSM)(《Explaining and harnessing adversarial examples》),基本迭代法(BIM)(《Adversarial machine learning at scale》)和DeepFool(《Deepfool: a simple and accurate method to fool deep neural networks》)。在本研究中,我们简单地采用FGSM来验证ASV系统对对抗性攻击的脆弱性。
本文主要研究了GMM i-vector系统对对抗性攻击的脆弱性,以及从i-vector系统到x-vector系统制作的对抗样本的可迁移性。具体来说,我们对GMM的i-vector系统进行白盒攻击和黑盒攻击,对x-vector系统进行黑盒攻击。详细的攻击配置见第3节。本文采用FGSM(《Explaining and harnessing adversarial examples》)进行对抗扰动优化。我们的代码是开源的。
本文的组织结构如下。第二节介绍了实验中采用的ASV系统。对抗攻击配置和FGSM优化算法在第3节中进行了说明。第4节和第5节分别描述了实验设置和结果。最后,第6节对本文进行了总结。
2 自动说话人验证系统
实验工作包括GMM的i-vector系统和x-vector系统。两种系统均由两部分组成:前端用于语音级说话人嵌入提取,后端用于说话人相似度评分。所有实验均采用概率线性判别分析(PLDA)后端。
2.1 高斯混合模型 i-vector提取

GMM i-vector提取器(《Front-end factor analysis for speaker verification》)的示意图如图1所示。它由高斯混合模型-通用背景模型(GMM-UBM)和总变率矩阵( T T T矩阵)组成。考虑到语音 i i i的声学特征,利用GMM-UBM通过Baum-Welch统计量计算提取零阶( N i N_i Ni)和一阶( f ~ i \tilde{f}_i f~i)统计量。将统计信息与 T T T矩阵结合,提取i-vector ω i ωi ωi,如公式1所示:
ω i = L i − 1 T ⊤ ( Σ ( b ) ) − 1 f ~ i (1) \omega_i = L_i^{-1}T^{\top}(Σ^{(b)})^{-1}\tilde{f}_i \tag{1} ωi=Li−1T⊤(Σ(b))−1f~i(1) 式中, L i = I + T ⊤ ( Σ ( b ) ) − 1 N i T L_i = I + T^{\top}(Σ^{(b)})^{-1}N_iT Li=I+T⊤(Σ(b))−1NiT, I I I是单位矩阵, Σ ( b ) Σ^{(b)} Σ(b)是GMM-UBM的协方差矩阵。
2.2 x-vector提取
x-vector提取器(《X-vectors: Robust DNN embeddings for speaker recognition》)利用DNN产生说话人区分嵌入。它由框架级和语句级提取器组成。在帧级,声学特征由几层时延神经网络(TDNN)前馈。在语音层,统计池化层对最后一帧层的输出进行汇总,并计算其均值和标准差。将平均值和标准差串联在一起,通过语音级层和softmax输出层进行传播。在测试阶段,给定语音的声学特征,提取嵌入层输出作为x-vector。
2.3 后端概率线性判别分析
PLDA是一个监督版本的因子分析(《Introduction to factor analysis》)。它通过公式2模型i-vector/x-vector( ω ω ω)
ω = m + Φ β + ϵ r (2) \omega = m+\Phi \beta+\epsilon_r \tag{2} ω=m+Φβ+ϵr(2) 其中 m m m是全局偏置项, Φ \Phi Φ的列提供了特定于说话人子空间的基础, β ∈ N ( 0 , I ) \beta \in N(0, I) β∈N(0,I)是潜在的说话人身份向量。残差项 ϵ r ∈ N ( 0 , Σ ) \epsilon_r \in N(0, Σ) ϵr∈N(0,

该研究探讨了基于GMM的i-vector说话人验证系统对对抗攻击的脆弱性,以及这些对抗样本在x-vector系统中的可迁移性。实验表明GMMi-vector系统在白盒和黑盒攻击下表现脆弱,且构建的对抗样本能有效攻击x-vector系统。此外,ABX测试验证了人类无法察觉对抗样本与原始音频的差异。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



