【论文学习】《Adversarial Attacks on GMM i-vector based Speaker Verification Systems》-优快云博客

该研究探讨了基于GMM的i-vector说话人验证系统对对抗攻击的脆弱性，以及这些对抗样本在x-vector系统中的可迁移性。实验表明GMMi-vector系统在白盒和黑盒攻击下表现脆弱，且构建的对抗样本能有效攻击x-vector系统。此外，ABX测试验证了人类无法察觉对抗样本与原始音频的差异。

《Adversarial Attacks on GMM i-vector based Speaker Verification Systems》论文学习

文章目录

《Adversarial Attacks on GMM i-vector based Speaker Verification Systems》论文学习

摘要

本文研究了基于高斯混合模型(GMM) i-vector的说话人验证系统对对抗攻击的脆弱性，以及GMM i-vector系统对x-vector系统制作的对抗样本的可迁移性。详细地说，我们制定了GMM i-vector系统作为登记和测试语音对的评分函数。然后，我们利用快速梯度符号法(FGSM)来优化测试话语的对抗样本生成。这些对抗性样本用于攻击GMM的 i-vector和 x-vector系统。我们通过等错误率和误接受率的降低来衡量系统的脆弱性。实验结果表明，GMM i-vector系统在对抗攻击下非常脆弱，所构建的对抗样本具有可转移性，并对基于神经网络说话人嵌入的系统(如x-vector系统)构成威胁。

关键词：对抗攻击，说话人验证，GMM i-vector，x-vector

1 介绍

自动说话人验证(ASV)系统的目的是对声明的说话人身份进行确认。经过几十年的发展，说话人验证领域取得了很大的进步，并将该技术应用于许多生物识别认证案例，如电子设备中的语音激活、电子银行认证等。

然而，过去的研究表明，ASV系统容易受到假冒(《A comparison between human perception and a speaker verification system score of a voice imitation》，《Spoofing and countermeasures for speaker verification: A survey》)、重放(《Spoofing and countermeasures for speaker verification: A survey》，《A study on replay attack and anti-spoofing for text-dependent speaker verification》)、语音合成(《Examining vulnerability of voice verification systems to spoofing attacks by means of a TTS system》，《Vulnerability of voice verification systems to spoofing attacks by tts voices based on automatically labeled telephone speech》)和语音转换(《Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech》)等欺骗语音的恶意攻击。在这四种欺骗攻击中，重放攻击、语音合成攻击和语音转换攻击是ASV系统面临的最严重的威胁。创建的欺骗语音听起来可能非常接近目标人的声音。此外，ASV系统也可能被听起来像冒名顶替者的声音欺骗。这将使系统面临其他一些危险情况，例如，在不知情的情况下，被冒充者代替真正的主人控制语音设备。这些威胁可能由对抗攻击造成。

《Intriguing properties of neural networks》，《On adversarial examples for character-level neural machine translation》，《Explaining and harnessing adversarial examples》的研究表明，性能优异的深度神经网络(DNNs)在许多任务中，如人脸识别(《Are imageagnostic universal adversarial perturbations for face recognition difficult to detect？》，《Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition》)、图像分类(《Delving into transferable adversarial examples and black-box attacks》，《Synthesizing robust adversarial examples》)、语音识别(《Audio adversarial examples: Targeted attacks on speech-to-text》)等，容易受到简单的对抗攻击。然而，据我们所知，唯一将对抗攻击应用于ASV系统的工作是(《Fooling end-to-end speaker verification with adversarial examples》)，它验证了端到端ASV系统对对抗攻击的脆弱性。简单地说，有三种具有代表性的ASV框架：基于i-vector说话人嵌入的系统(《Front-end factor analysis for speaker verification》，《A small footprint i-vector extractor》，《Probabilistic linear discriminant analysis for inferences about identity》，《Analysis of i-vector length normalization in speaker recognition systems》)，基于神经网络(NN)说话人嵌入的系统(《Deep neural networks for small footprint textdependent speaker verification》，《X-vectors: Robust DNN embeddings for speaker recognition》)和端到端方法(《End-to-end attention based text-dependent speaker verification》，《End-to-end text-dependent speaker verification》，《Deep neural network-based speaker embeddings for end-to-end speaker verification》)。尽管端到端系统已被证明容易受到对抗攻击，但其他方法的鲁棒性，包括基于GMM i-vector的系统和基于NN说话人嵌入的系统(例如我们实现的x-vector系统)，仍有待探索。基于GMM i-vector的系统广泛应用于生物特征认证，研究其对此类攻击的鲁棒性势在必行。

对抗攻击旨在以一种有目的设计的方式干扰系统输入，使系统行为不正确。这些干扰通常是微妙的，以致于人类无法察觉对抗输入和原始输入之间的差异。主要有两种攻击场景：白盒攻击和黑盒攻击。白盒攻击允许攻击者访问系统的完整参数，使系统功能可以直接参与优化输入扰动。黑盒攻击者只能访问系统的输入和输出，而对抗样本通常是由其他替代系统制作的。

对于对抗样本的生成，之前提出了许多算法来解决扰动优化问题，如快速梯度符号法(FGSM)(《Explaining and harnessing adversarial examples》)，基本迭代法(BIM)(《Adversarial machine learning at scale》)和DeepFool(《Deepfool: a simple and accurate method to fool deep neural networks》)。在本研究中，我们简单地采用FGSM来验证ASV系统对对抗性攻击的脆弱性。

本文主要研究了GMM i-vector系统对对抗性攻击的脆弱性，以及从i-vector系统到x-vector系统制作的对抗样本的可迁移性。具体来说，我们对GMM的i-vector系统进行白盒攻击和黑盒攻击，对x-vector系统进行黑盒攻击。详细的攻击配置见第3节。本文采用FGSM(《Explaining and harnessing adversarial examples》)进行对抗扰动优化。我们的代码是开源的。

本文的组织结构如下。第二节介绍了实验中采用的ASV系统。对抗攻击配置和FGSM优化算法在第3节中进行了说明。第4节和第5节分别描述了实验设置和结果。最后，第6节对本文进行了总结。

2 自动说话人验证系统

实验工作包括GMM的i-vector系统和x-vector系统。两种系统均由两部分组成：前端用于语音级说话人嵌入提取，后端用于说话人相似度评分。所有实验均采用概率线性判别分析(PLDA)后端。

2.1 高斯混合模型 i-vector提取

GMM i-vector提取器(《Front-end factor analysis for speaker verification》)的示意图如图1所示。它由高斯混合模型-通用背景模型(GMM-UBM)和总变率矩阵( $T$ 矩阵)组成。考虑到语音 $i$ 的声学特征，利用GMM-UBM通过Baum-Welch统计量计算提取零阶( $N_i$ )和一阶( $\tilde{f}_i$ )统计量。将统计信息与 $T$ 矩阵结合，提取i-vector $ω i$ ，如公式1所示：
$\omega_i = L_i^{-1}T^{\top}(Σ^{(b)})^{-1}\tilde{f}_i \tag{1}$ 式中， $L_i = I + T^{\top}(Σ^{(b)})^{-1}N_iT$ , $I$ 是单位矩阵， $Σ^{(b)}$ 是GMM-UBM的协方差矩阵。

2.2 x-vector提取

x-vector提取器(《X-vectors: Robust DNN embeddings for speaker recognition》)利用DNN产生说话人区分嵌入。它由框架级和语句级提取器组成。在帧级，声学特征由几层时延神经网络(TDNN)前馈。在语音层，统计池化层对最后一帧层的输出进行汇总，并计算其均值和标准差。将平均值和标准差串联在一起，通过语音级层和softmax输出层进行传播。在测试阶段，给定语音的声学特征，提取嵌入层输出作为x-vector。

2.3 后端概率线性判别分析

PLDA是一个监督版本的因子分析(《Introduction to factor analysis》)。它通过公式2模型i-vector/x-vector( $ω$ )
$\omega = m+\Phi \beta+\epsilon_r \tag{2}$ 其中 $m$ 是全局偏置项， $\Phi$ 的列提供了特定于说话人子空间的基础， $\beta \in N(0, I)$ 是潜在的说话人身份向量。残差项 $\epsilon_r \in N(0, Σ)$