【论文学习】《Practical Attacks on Voice Spoofing Countermeasures》

原创

已于 2022-03-24 13:52:37 修改 · 4.6k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#说话人验证 #对抗攻击 #欺骗对策 #迁移攻击 #语音伪造

于 2022-03-23 22:35:08 首次发布

本文揭示了一种新型对抗攻击，能高效制作音频样本，绕过当前最严格的语音认证系统。攻击利用受害者音色生成语音，对CMs进行实际攻击，并通过电话网络实施，挑战了现代语音认证安全性。

《Practical Attacks on Voice Spoofing Countermeasures》论文学习

文章目录

《Practical Attacks on Voice Spoofing Countermeasures》论文学习

摘要

语音认证已经成为关键安全操作(如银行交易和呼叫中心通话)中不可或缺的一部分。自动说话人验证系统(ASV)对欺骗攻击的脆弱性促使了对抗措施(CMs)的发展，其任务是区分真实和欺骗语音。ASV和CMs共同构成了今天的语音认证平台，被宣传为一种坚不可摧的访问控制机制。
我们开发了第一个针对CMs的实际攻击，并展示了恶意行为者如何高效地制作音频样本，以绕过最严格形式的语音认证。以前的工作主要集中在非主动攻击或对抗策略的ASV，而不是使用受害者的音色生成语音。我们攻击的后果要严重得多，因为我们生成的样本听起来像受害者，消除了受害者任何貌似合理的推脱机会。
此外，现有的少数针对CMs的对抗性攻击错误地优化了特征空间中的欺骗语音，并且没有考虑到ASV的存在，导致合成音频在现实环境下的失败。通过我们的关键技术贡献，我们消除了这些障碍：我们提出一种新的联合损失功能，可以直接在时域内对ASV/CM组合部署进行高级对抗攻击。我们的对抗样本在最先进的认证平台上实现了黑盒成功率(高达93.57%)。
最后，我们对CMs执行了第一次有针对性的、适用于电话网络的攻击，绕过了几种认证挑战，使各种潜在的威胁成为可能。我们的研究结果对现代语音认证系统的安全性提出了质疑，因为攻击者会绕过这些措施来获取用户最有价值的资源。

1 介绍

自动说话人验证系统(ASV)被广泛用于认证平台，通过将从给定音频样本中提取的特征与从之前收集的录音中获得的声纹进行比较，来验证使用者声称的身份。ASV越来越受欢迎，主要是因为它们提供的便利，让用户从必须记住密码的负担中解脱出来。ASV易受模仿(《Vulnerability of speaker verification to voice mimicking》)、重放(《On the study of replay and voice conversion attacks to text-dependent speaker verification》)、语音合成(《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》)、语音转换(《All your voices are belong to us: Stealing voices to fool humans and machines》，《Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory》)等欺骗攻击的脆弱性已经成为众多学术和行业项目的研究课题，并通过部分个体的努力(《Void: A fast and light voice liveness detection system》)或INTERSPEECH的ASVspoof挑战开发了欺骗干扰对策(CMs)(《ASVspoof: the automatic speaker verification spoofing and countermeasures challenge》)。这些工作设想语音认证平台的形式结合了ASV和CM。前者验证身份声明，而后者拒绝欺骗的、机器生成的样本。这样的组合解决方案在已部署的应用程序(《The attacker s perspective on automatic speaker verification: An overview》)中非常普遍。许多服务提供商明确地通知客户在ASV旁边存在CM，以减轻与欺骗攻击(《HSBC Voice ID》)相关的安全问题。

语音认证已被部署在安全关键环境中，如银行(如花旗银行(《Citibank Voice Biometric》)和《first direct Phone Banking》)。通讯公司的VocalPassword(《Nuance VocalPassword : voice biometrics authentication》)(今年4月被微软(Microsoft)以197亿美元收购)和类似的产品被服务提供商广泛用于访问控制，要么是在他们的呼叫中心，要么是通过智能手机应用(《ING introduces a voice-controlled mobile banking app powered by Nuance》，《Nuance voice biometrics quickly identifies customers and strengthens security for National Australia Bank》)实现交易。这些服务提供商发布的声明大放阙词(例如《TD VoicePrint》)，承诺他们的客户其安全是不可渗透的，这引起了人们对这些声明的可靠性的质疑。

本工作的主要目标是研究CMs的鲁棒性，以及它们将ASV转变为可信赖的认证系统的能力。上面提到的四种欺骗攻击CMs是健壮的，但它们不是主动的，而是具有随机性的。除了对ASV(《The attacker s perspective on automatic speaker verification: An overview》)不构成现实威胁的模拟攻击外，其余三类攻击都是通过良性算法和方法获得的，它们不是为击败语音认证系统而设计的，而是通常为帮助残疾人或娱乐(《8 Use Cases for Voice Cloning with Artificial Intelligence》)而开发的。因此，问题是，带有恶意意图的高级攻击是否会危及使用CM增强的ASV。

CMs主要用于防止攻击，其中对抗噪声是难以察觉的，并想让人类侦听者认为是受害者的声音，这是针对安全关键系统的基本需求(见III)。尽管目前有许多工作使用对抗样本进行主动攻击(《Who is real Bob? Adversarial attacks on speaker recognition systems》，《SirenAttack: Generating adversarial audio for endto-end acoustic systems》，《Adversarial attack and defense strategies for deep speaker recognition systems》，《Fooling end-to-end speaker verification with adversarial examples》)，但都没有达到使对抗噪声难以察觉的要求(由人类侦听者检查时)，并且也不是针对配备CM的语音认证平台的实际攻击。

本文演示了对CMs的第一次实际攻击，CMs是真实世界语音认证平台的一个组成部分。我们的现实威胁模型要求成功的攻击必须避开四个独立的组件：CM、ASV、语音内容验证单元，以及可能被要求验证机器判断结果的人类侦听者。我们建立对抗样本作为一种合适的攻击策略，并将从欺骗语音针对CMs生成对抗噪声的问题归约为一个受威胁模型约束的优化问题。

我们发现，现有的针对CMs(《Adversarial attacks on spoofing countermeasures of automatic speaker verification》)的攻击方法中，没有一种(《Black-box attacks on spoofing countermeasures using transferability of adversarial examples》)能够产生在实际环境中成功的对抗例子。我们的研究将这些失败归因于在频谱领域产生的对抗扰动，无法承受(逆)时频变换，从而导致CMs可以检测到的类似机器痕迹的人工制品。现有工作忽略的另一个因素是ASV和目标CMs的共同存在需要在生成攻击样本时考虑。

我们通过实现必要的逻辑，通过特征提取器支持梯度的反向传播，引入了一种针对CMs的新型攻击类型，使我们能够在时域中构建对抗示例，这是我们在攻击CM时必不可少的要求。我们的梯度支持的特征提取器使我们能够通过我们的联合损失函数考虑ASV来鲁棒攻击，该函数包括一个指定的部分来正则化对手，并排除可能消除受害者声纹的扰动。优化是在受害者的声音中执行的，由现成的语音合成或语音转换算法生成。其结果是端到端攻击，以最严格的形式绕过语音验证。

为了演示我们的攻击的实际风险，我们在两个真实世界的场景中评估它们：银行应用程序攻击和电话攻击。在前者场景下，攻击者绕过银行应用程序用来保护应用程序内交易(《Voice ID in the ANZ App》)的语音认证系统。在后者中，攻击者在与目标系统的电话中伪装成受害者，发出虚假的事务(《TD VoicePrint》)。我们提出的对抗攻击绕过了相关障碍成功完成通话(《The faults in our ASRs: An overview of attacks against automatic speech recognition and speaker identification systems》)，并抵御了电话中失真的影响。我们的攻击行为即使经过人类的检查也不会被发现，这消除了受害者任何可能的推诿机会。由于我们的攻击和发现，用户应该重新考虑他们对语音生物识别技术的信任，研究人员和服务提供商应该投入资源开发技术，使这些机制更安全。

我们的攻击是根据2019年ASVspoof挑战(《ASVspoof 2019: Future horizons in spoofed and fake audio detection》)的顶级提交进行评估的。我们的ASV与CMs并排部署，由x-vector和i-vector的GMM-UBM模型组成，代表了前沿技术。我们的大规模研究实验以各种配置作为目标系统，并在所有这些设置中展示了成功的攻击。我们的对手都是在黑盒场景中评估的，利用对抗样本的可转移性。我们在MTurk(《Amazon Mechanical Turk Platform》)上进行了一项用户研究，以评估我们优化的欺骗示例的能力，以欺骗人类听众。在黑盒设置下，我们的攻击成功率高达93.57%。

总的来说，这项工作做出了以下贡献：
（1）我们引入并规范了一个现实的威胁模型，其中采用欺骗对策(CMs)来确保语音认证的安全性。我们从理论上仔细研究了文献中提出的针对CMs制作音频对抗样本的策略，发现现有的方法在我们考虑的实际威胁模型的限制下是无效的。我们进行了实验来证实这些发现。
（2）我们提出了第一种技术，通过一种新型的对抗攻击显著降低最健壮的语音认证的性能。我们开发了一种方法来生成CMs的时域对抗样本。通过最小化一个新的联合损失函数，我们生成了强大的对手，它们可以同时逃避四种防御：CMs、ASV、人类验证和内容验证。
（3）我们演示了第一个针对ASV/CM组合系统的有针对性的通过电话网络进行对抗攻击，并提出了对失真具有鲁棒性的技术。
（4）我们的攻击的端到端延迟低于5秒，使它们成为击败语音认证系统的实际实时策略。
（5）我们将公开我们的源代码，供其他研究人员复制我们的结果。

2 背景

本节介绍了自动说话人验证系统的初步设计和欺骗干扰对策。

A 自动说话人验证系统

ASV的核心是声纹，这是一套独特的可测量的个人声音特征。这种声纹被认为是一种识别特征，因为它可以捕捉到诸如声道和喉部的形状和大小等物理因素，以及包括口音、节奏、发音等行为特征(《Robustness-related issues in speaker recognition》)。这种所谓的声纹特性促使研究人员对其作为生物识别的有效性进行了研究。

ASV分为两个阶段，即注册阶段和验证阶段。在注册过程中，用户提供语音样本，这些样本用于构建他们的声纹并推导说话人的模型，这些模型将作为他们的识别签名。在未来的访问请求中，用户的身份通过提供的语音样本进行验证，这些语音样本与声纹进行对照，以输出一个决定(接受/拒绝)。
验证阶段可以按照三种方案：1)文本依赖——预设的短语反复用于身份验证的；2)文本独立——用户可能提供任何随机的短语；3)文本提示——系统需要一个特定的随机文本从用户使用。第三种方案是最安全的，因为它对重放攻击具有鲁棒性，被多个服务提供商认为是一种鲁棒防御策略，是本文的重点。我们的攻击绕过了这个最强大的防御以及所有其他的验证方案。

研究人员提出了各种各样的特征，这些特征已经成为ASV的黄金标准。这些特征包括梅尔频率倒谱系数(MFCC)和对数功率幅度谱(LPMS)，其中前者的表达能力和捕获众多说话人特征(《Adversarial attacks on GMM i-vector based speaker verification systems》)的能力在文献中占主导地位。ASV的架构有三种典型的代表：基于i-vector说话人嵌入式系统、基于神经网络(x-vector)的系统和端到端方法(《Adversarial attacks on GMM i-vector based speaker verification systems》)。本文考虑基于i-vector和x-vector嵌入的高斯混合模型系统(或GMM i-vector/x-vector)(《Adversarial attacks on GMM i-vector based speaker verification systems》，《SirenAttack: Generating adversarial audio for endto-end acoustic systems》)，因为它们在生物特征认证任务中的广泛应用和普及。

B 欺骗的对策

ASV系统很容易受到欺骗攻击，在验证步骤中使用的语音样本不是由真实用户提供的，而是由冒名顶替者提供的。欺骗和零成本攻击之间的区别在于，后者攻击者仅仅声称自己是受害者，并提供自己的声音录音作为证据，希望幸运地出现混淆。ASV系统在拒绝零成本攻击方面效率很高。

欺骗攻击可以分为四类:
1)模仿攻击，攻击者操纵自己的声音，以便听起来像受害者(这是在没有机器的帮助下完成的)，
2)语音合成攻击，攻击者利用先进的ML技术(《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》)合成生成模仿受害者的语音样本，
3)语音转换攻击，攻击者利用最先进的技术，通过算法将录音中的语音转换为受害者的语音，同时保留录音内容
4)重放攻击，攻击者重放原始用户之前录制的样本。在模拟攻击中，攻击者倾向于通过操纵高水平的声音线索，而不是asv使用的低水平的光谱特征，来模仿目标说话者的声音。因此，asv天生对模仿攻击(《The attacker s perspective on automatic speaker verification: An overview》)是健壮的。

对可靠的ASV的需求导致了欺骗干扰对抗(CMs)的出现。这些分类器是用来解决二进制问题，区分真实的语音样本(真伪)和他们的仿冒的副本。与说话人验证的任务类似，欺骗干扰对策依赖于一组通用的特征，这些特征将人的语音与机器生成的语音或只有在计算机参与生成样本时才会出现的人工语音区分开来。这些细微差别由为此目的开发或研究的特性集捕获，包括前面描述的MFCCs和LPMS，以及Constant-Q倒谱系数(CQCCs)。

CMs被设计成与ASV一起部署。语音样本必须经过两个系统的批准才能通过身份验证。

3 威胁模型

攻击者的目标： 攻击者希望在远程系统中模拟某些用户。与远程系统的交互可以以两种形式进行：
（1）通过指定的应用程序——在过去的几年中，随着许多服务提供商(尤其是银行)通过他们的应用程序(《ING introduces a voice-controlled mobile banking app powered by Nuance》)提供安全的语音触发服务，这种设置已经获得了势头。用户发出交易，然后使用他们的语音对其进行身份验证。
（2）通过电话网络——同样，通过电话提供远程服务的银行和服务提供商的数量也在增加。用户调用服务提供商并与系统交互，同时使用语音身份验证(《Chris Burt. Zoom adds voice biometrics, contact center services with $14.7B Five9 deal》)验证用户的身份。

对远程系统的访问通过语音身份验证进行了保护。该系统还配备了一个CM(《Void: A fast and light voice liveness detection system》)，以降低语音欺骗的威胁。我们排除了文本相关的验证方案，因为它们很容易受到重放攻击。我们假设要克服的验证方案是文本独立的或文本提示的。在这两种情况下，攻击变得更加困难，因为口语短语必须包含非常具体的内容；在前一种情况下，用户可以简单地通过这样的语句进行交互：将1000美元转移到XXXX账户，这既用于验证，也用于传递必须保留的预期命令。在后一种情况下，必须准确地重复远程系统提供的内容。

在指定应用场景中，用户提供的录音直接转发到远程服务器。在电话网络场景中，输入经过编码，然后通过电话网络传输到远程服务器。第二种情况带来了额外的挑战，因为攻击必须经受住噪声介质的影响。

最后，或许也是最重要的一点，攻击必须是不可察觉的。由于我们只考虑安全关键环境，所以很自然地假设可疑的事务将在执行之前由人工代理标记和验证。或者，如果执行了恶意的事务，受害者将对该事务提出争议，从而进行追溯性调查。因此，这些攻击必须经受住人类的检验。为了达到这个目的，攻击者想让任何人类都将录音的音色判断为受害者本人。

攻击者的知识：
我们主要关注更真实的黑盒场景，尽管我们也在白盒场景中演示了攻击，以供参考。也就是说，攻击者无法访问目标模型的内部结构或目标系统使用的训练数据集(即用来训练这些模型的说话人和音频)。回想一下，目标系统使用的CM模型需要模拟语音样本来训练它们。这些欺骗样本是用欺骗算法创建的。我们假设攻击者可以使用相同的欺骗算法(但不是样本本身)进行攻击，因为该领域的领先技术是使用的共同标准。在附录B中，相比不知道作为目标系统训练一部分的欺骗算法的攻击者，我们展示了这一假设并不会导致一个更强大的对手。

最后，攻击者拥有足够的数据来训练受害者的语音合成模型。最先进的语音合成系统只需要受害者15分钟的语音就能完成这一任务(《LibriTTS: A corpus derived from LibriSpeech for text-to-speech》)。由于有了社交媒体，这些数据很容易获得，特别是对于一个针对特定人物且有足够耐心的攻击者来说。

攻击者的能力：
攻击者可以绕过用于与远程服务器交互的设备上的麦克风，将加有对抗扰动的音频波形直接注入到服务提供商的应用程序(或电话应用程序)。这需要攻击者获得一些根设备，在这些设备上他们可以绕过麦克风，使这个假设非常可信。重要的是，我们不假设攻击者能够访问受害者的设备。

在指定应用场景中，攻击者将受害者的银行应用安装在根设备上。大多数银行允许用户在多种设备上安装应用程序。它们可能要求用户输入密码或PIN码(《Voice ID in the ANZ App》)，攻击者可以通过社会工程(《Social engineering attacks by the numbers: Prevalence, costs, and impact》)获得密码或PIN码(《Voice ID in the ANZ App》)。在电话网络的场景中，这一要求可以放弃，因为攻击者可以使用任何设备进行呼叫，而不需要知道PIN。此外，在这种情况下，不需要根设备，因为攻击者可以使用计算机和VOIP程序(如Skype)进行攻击。虽然银行应用程序可能配备了根探测器，但这些通常可以避开(《Android: How to bypass root check and certificate pinning》)。值得注意的是，由于整个身份验证过程是在服务器端(《Nuance VocalPassword : voice biometrics authentication》)上进行的，因此攻击者对设备进行根认证的能力并不会使更强大的攻击成为可能。

攻击者有足够的计算资源和数据来构建模拟目标系统的阴影。攻击者训练这些模型，并以此为基础进行攻击。

总的来说，除了计算资源，我们只要求攻击者访问一个根设备，15分钟的受害者的声音，可能通过社会工程获得的PIN，这取决于威胁模型。

4 攻击语音认证系统

A 问题陈述

在我们的设计中，攻击者的目标是产生一个音频信号来绕过语音认证。威胁模型要求攻击者产生能够欺骗机器和人类侦听器的信号。该认证机器由一个ASV和一个CM组成。两个模块的输入都是从信号中提取的一组声学(频谱)特征。

对于音频输入 $\in X$ ，其中 $x$ 是音频信号空间，以及声明的身份标识 $U_{ID}$ , ASV模块公式如下：
$ASV(x,U_{ID})=h_{ASV}(g_{ASV}(x),g_{ASV}(DB(U_{ID})))$ 其中 $h_{ASV}$ 是一个二进制映射(接受/拒绝)， $g_{ASV}$ 是一个提取函数，用于获取ASV所需的特征。 $D B$ 是包含所有用户声纹的数据库。系统从数据库中检索与身份 $U_{ID}$ 对应的声纹，从输入和声纹中提取ASV需要的特征，并输出样本 $x$ 是否属于 $U_{ID}$ 。

CM模型的公式如下：
$CM(x)=h_{CM}(g_{CM}(x))$ 其中 $h_{CM}$ 是一个二进制映射， $g_{CM}$ 是一个特征提取器。系统从 $x$ 中提取相关特征，并输出 $x$ 是欺骗的还是真实的。

当攻击者试图模拟用户 $U_{ID}$ 时，他们不仅必须绕过ASV和CM，而且提供的示例的内容必须匹配系统给出的密码短语 $t$ 。我们假设服务器上有一个Speech-To-Text验证单元( $V S$ )，它接受 $t$ 和提供的样本 $x$ 作为输入，并表明这个条件是否成立。

为了捕获隐匿性对人类侦听者的表现，我们将其建模为 $HJ(x, U_{ID}, t)$ ，它将声明的标识、提供的示例和预期的文本作为输入。当语音认证系统的决定受到质疑时，人工判断会被询问，并决定来自声称的用户的样本是否听起来很自然，并嵌入预期的文本内容。

攻击者的任务是躲避所有这些防御。我们让 $\mathcal{A}$ 表示攻击者用来制作恶意样本的策略。 $\mathcal{A}$ 的输入是 $t$ 和 $U_{ID}$ ，输出是一个音频样本，表示为 $\mathcal{A}(t, U_{ID})$ 。要使攻击者的策略成功，必须满足以下条件：
$True=ASV(\mathcal{A}(t,U_{ID}), U_{ID}) \land CM(\mathcal{A}(t, U_{ID})) \land VS(\mathcal{A}(t, U_{ID}), t) \land HJ(\mathcal{A}(t, U_{ID}), U_{ID},t)$

B 攻击概述

正如在第二节和第三节中所解释的，唯一能够成功攻击独立于文本或文本提示的ASV-CM组合系统的攻击类型是语音转换(VC)和语音合成(SS)攻击。然而，CMs可能会显著降低这些攻击的可能性。激发这一研究的问题是，SS和VC攻击是否可以被优化以击败CM系统。

最先进的VC或SS算法(《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》)可以生成完美的合成语音。我们的假设是，敌对的例子，当从这些算法的输出精心设计，是完美的攻击候选。我们的攻击通过对抗性扰动来呈现目标CMs，优化带有受害者声纹的机器生成语音。

给定 $S_A$ 表示的SS或VC算法，我们提出的攻击如图1所示，针对指定应用场景：
（1）攻击者在自己的手机上访问远程服务提供的应用，并发出请求资源或触发事务的命令。该命令可能是一个语音命令，使用 $S_A$ 在受害者的语音中生成(并使用我们下面描述的相同方法进行反向优化)。
（2）远程服务通过应用程序接收请求/事务;
（3）随机向攻击者提示认证短语 $t$ 。
（4）攻击者通过 $S_A$ 在受害者的语音中生成请求短语，保证 $H J$ 和 $V S$ 接受。
（5）结果转发到对抗样本生成器 $A E$ ，通过轻微的扰动生成一个文本内容和听起来都完全相同的样本，同时也固化受害者的声纹，用对抗的方式优化它，使其被CM接受。
（6）对抗样本被注入到应用程序，传输到远程服务器。
（7）服务器验证样本是否带有受害者的声纹(ASV接受)，样本的文本内容是否为

最低0.47元/天解锁文章