我们拥有你们所有的声音:窃取声音以欺骗人类和机器
迪比娅·穆克吉、马利赫·希尔瓦尼安(B)和尼特什·萨克塞纳
阿拉巴马大学伯明翰分校,伯明翰,阿拉巴马州,美国
{dibya,maliheh}@uab.edu, saxena@cis.uab.edu
摘要
在本文中,我们研究了针对人类和机器的语音模仿攻击。借助当前自动化语音合成技术的进步,攻击者仅需学习受害者语音中的 very limited 个样本(例如,通过互联网获取或通过物理接近进行录制),即可构建出非常接近受害者语音的模型。具体而言,攻击者使用 voice morphing 技术将其自身语音(说出任意消息)转换为受害者的语音。我们考察了此类语音模仿能力对两个重要应用场景的影响:(1)在 voice-based user authentication 系统中冒充受害者;(2)在 arbitrary speech 场景中模仿受害者(例如,在互联网上发布伪造样本或留下伪造语音消息)。
我们使用现成的语音变形工具开发了语音模仿攻击,并针对最先进的 automated 说话人验证算法(应用1)以及 human 验证(应用2)评估了这些攻击的可行性。我们的结果表明,自动化系统对我们的攻击基本无效。对于大多数受害者而言,拒绝伪造声音的平均比率低于10%至20%。即使是人类验证也容易受到我们攻击的影响。基于两项约有100名用户参与的在线研究,我们发现人们仅在平均约50%的情况下拒绝了两名 celebrities 以及 briefly familiar users 的变形语音样本。
1 引言
一个人的声音是最基本的属性之一,能够实现与物理接近的人或使用电话、收音机在远程位置交流,以及通过数字媒体在互联网上进行交流。然而,在不知不觉中,人们经常在许多不同场景和情境中留下他们的声音痕迹。举几个例子:人们在咖啡馆或餐厅社交时大声交谈、授课、进行公开演讲或采访、拨打/接听已知甚至有时未知的电话、在脸书或油管等社交网站上发布自己的语音片段或音视频片段、向亲人发送语音贺卡,甚至捐赠自己的声音以帮助有发声障碍的人[11]。换句话说,对于某些人而言,获取这些声音信息可能相对容易,潜在地出于恶意,通过与说话人近距离接触(例如使用手机)来“录制”其声音,或通过社交工程伎俩(如拨打垃圾电话)、在线搜索和挖掘音视频片段,甚至入侵存储此类音频信息的云端服务器。一个人越出名(例如名人或著名学者),获取其语音样本就越容易。
我们研究了人们语音片段普遍泄露所带来的影响。换句话说,我们探讨了攻击者在掌握一定数量的受害者语音音频样本后,可能如何危及受害者的安全、保障和隐私。鉴于当前自动语音合成技术的进步,攻击者只需学习少量先前窃听所得的受害者语音样本,即可构建出与受害者语音极为接近的模型。具体而言,可利用声音变形技术,基于该模型将攻击者语音(说出任意消息)转换为受害者的语音。因此,仅需几分钟的受害者语音音频,就可能导致受害者的语音本身被克隆。
我们指出,模仿他人声音的后果可能十分严重。由于声音被视为个人的独特特征,因此它构成了身份认证的基础。如果声音能够被模仿,那么这种身份验证功能本身就会受到威胁,无论是人类在人与人之间的通信中隐式完成的认证,还是机器在人机交互中显式执行的认证都将不再可靠。作为本文的案例研究,我们探讨了在两个关键应用和场景中窃取声音所带来的后续影响,这些应用和场景均依赖声音作为身份认证的基本手段。第一个应用是基于语音的生物识别或说话人验证系统,该系统利用个体声音的潜在独特特征来对个体进行身份验证。语音生物特征识别已成为银行和信用卡公司中的热门术语。许多银行和信用卡公司正致力于为用户提供更便捷的服务体验,使用户能够通过语音生物特征识别轻松访问其账户。[13,15,18,22,29,31]目前,该技术也已部署于智能手机上,用以替代传统的PIN锁,并在许多政府机构中用于建筑物的访问控制。
语音生物特征识别基于这样一个假设:每个人的声音都是独一无二的,这种独特性不仅取决于其声带的生理特征,还与其整体身体形态以及声音的形成和发音方式有关。一旦攻击者使用伪造声音突破了语音生物特征识别系统,他将能够不受限制地访问采用该身份验证功能的系统(设备或服务)。
我们的 second application 自然是人类通信。如果攻击者能够模仿受害者的语音,那么(远程)任意对话的安全/安保可能会受到威胁。攻击者可以让变形系统以受害者的音调和说话风格说出任何其想要的内容,并发起可能损害受害者声誉、其自身安全/安保以及周围人们安全/安保的攻击。例如,攻击者可以在互联网上发布变形语音样本,向受害者的联系人留下伪造语音消息,甚至可能在法庭上制造伪造音频证据。
甚至可以在实时电话通话中冒充受害者与认识受害者的人交谈。可能性是无限的。这类任意对话通常由人类(隐式)验证。
我们的贡献
在本文中,我们研究了窃取他人声音所带来的安全威胁(图1)。我们使用现成的语音变形引擎开发语音模仿攻击,并全面评估这些攻击对最先进的自动化说话人验证算法(上述应用1)以及人工验证(应用2)的有效性。
我们的结果表明,自动化系统对我们的语音模仿攻击基本无效。对于大多数受害者而言,伪造声音的平均拒绝率低于10–20%。此外,即使是人工验证也容易受到我们攻击的影响。基于一项包含65名用户的在线研究,我们发现人们仅在平均约50%的情况下拒绝了两名名人的合成语音样本,而作为基线,他们对不同说话者的声音的拒绝率约为98%,并且有60–70%的参与者认为合成样本与原始声音相似。我们还针对短暂熟悉的语音开展了另一项包含32名在线参与者的研究,结果显示相较于之前的研究情况略有恶化(拒绝率下降,说话人验证的模糊性增加)。
我们的工作突显了一个具有实际意义的真实威胁,因为在物理和数字世界中获取音频样本都非常容易,而且我们攻击的影响非常严重。尽管防止“语音黑客行为”似乎非常困难,但我们的工作可能有助于提高人们对这些攻击的警惕性,并促使他们在在线分享和发布音视频时更加谨慎。
2 背景与相关工作
语音转换
让机器以人类的声音说话一直是一项挑战。语音合成(人类语音的人工创造)具有越来越多的应用,其中最主要的是文本转语音系统。目前存在多种此类语音合成器,其质量通常根据自然度(与人类语音的相似性)来评判。
一些最近的语音合成器[2,5,10]通过降低早期合成器中不可避免的机械声,显著提高了语音质量。然而,合成语音仍然可以与人类语音区分开来。此外,此类系统需要大量数据来学习音素。
创建语音的另一种技术是声音变形(也称为语音转换和语音变换)。声音变形通过映射源说话人与目标说话人语音的频谱特征,来修改源说话人的声音以使其听起来像目标说话人。与语音合成器类似,声音变形的主要应用程序是TTS(文本转语音),能够以任何期望的声音进行语音输出。通常,这类技术所需的训练数据较少,并且与语音合成器相比,生成的语音听起来更加自然和流畅[6]。由于这些优势特性,声音变形成为攻击某人声音的绝佳工具,正如我们在论文中所研究的那样。
我们采用了 CMU Festvox 语音转换器[6](见第4节)对基于机器和基于人类的说话人验证发起攻击。我们使用梅尔倒谱距离(MCD)1来衡量转换引擎在不同规模训练数据集下的性能。MCD值越小,表示转换质量越好。MCD值在5–8分贝之间通常被认为是语音转换可接受的范围[9]。作为我们攻击的关键组成部分,我们发现即使使用非常少量的训练数据,转换质量也非常好(处于理想的5–8分贝范围内)。我们的MCD分析结果见第5.1和6.3节。
基于机器的说话人验证
说话人验证是一种通过分析申请人语音样本来验证其声称身份的生物特征任务。这是一个二分类问题,需要将申请人识别为真实说话人或冒充者[35]。为了识别已知的目标说话人,说话人验证系统需先经过一个说话人注册阶段。在说话人注册阶段,系统根据该说话人的语音样本建立目标模型,以便在未来测试阶段对其进行验证。
说话人验证系统从语音信号中提取某些频谱或韵律特征,以注册目标说话人的模型。在从语音信号中提取特征后,使用不同的建模技术完成目标说话人的模型注册或“声纹”生成。
随着先进语音合成和语音转换技术的出现,自动说话人确认系统可能面临风险。De Leon 等研究了先进说话人验证系统对合成语音[23–25]的漏洞,并提出了针对此类攻击的可能防御措施。在[16]中,作者展示了说话人验证系统对人工信号的漏洞。[44]的作者研究了文本无关说话人确认系统针对基于电话语音的语音转换的漏洞。
在本文中,我们对采用两种先进算法的说话人验证系统在面对语音转换时的漏洞进行了详细分析。尽管之前的一些论文测试了我们在本文中所测试的同一组说话人验证算法,但他们并未评估Festvox转换系统,而该系统声称仅需少量句子即可进行训练[6]。值得注意的是,我们的工作与先前研究的一个关键区别在于构建高质量语音转换模型所需的样本数量/长度和类型。我们使用非常少的训练样本(例如,每段5秒长的50–100句话),这些样本是通过非专业录音设备(如笔记本电脑和智能手机)采集的。此类短时音频样本生成受害者的语音,构成了一个人的语音可能被轻易复制的基本前提。
1 MCD 是一种度量,通过计算原始声音和转换后的声音的特征向量之间的差异,来衡量转换后的声音与原始声音的相似性[26,32,33]。
基于人类的说话人验证
人工语音感知和识别是一项复杂的任务,它依赖于许多参数,例如不同样本的长度/数量、来自熟悉的人或名人的样本,以及这些因素的组合[38]。关于语音如何被识别的研究已有大量文献[20,21,38]。语言学研究表明,句子越短,越难识别其来源[27]。根据Shirvanian等人[39]所进行的研究,对人类用户而言,确定说话人身份的任务具有挑战性,尤其是在面对简短的随机字符串(数字或短语)时。在本文中,我们研究了人类用户识别名人和短暂熟悉的说话人所说的一段任意语音的能力。
3 我们对人类声音的攻击
3.1 概述
在本文中,我们研究了针对基于人类和基于机器的说话人验证的攻击。我们的攻击系统包含三个阶段(如图1所示)。第一阶段涉及收集目标受害者此前说出的语音样本 OT=(t1, t2,···,tn)。此时,音频(内容)隐私可能已被泄露,因为受害者有意或无意地将其语音样本提供给了攻击者。攻击的第二阶段重点是基于第一阶段收集的音频样本生成受害者的语音。攻击者(源)首先说出受害者(目标)在录音中说过的相同句子OS=(s1, s2,···, sn),然后将 OS和 OT输入语音变形引擎,以创建受害者语音的模型 M= µ(OS, OT)。至此,攻击者实质上已拥有了受害者的语音。第三阶段则利用这种语音模仿能力,对任何使用受害者语音的应用程序或场景进行攻破。我们在本文中研究的目标应用包括:基于机器和基于人类的说话人验证系统。攻击者可以根据被攻击应用程序的要求说出任意新的句子 A=(a1, a2,···, am),由第二阶段构建的模型会将其转换为受害者的语音形式 fT= M(A)=(f1, f2,···, fm)。这些合成样本随后会被反馈给说话人验证系统(以认证合成语音为受害者的语音),以及提供给人们(通过欺骗使他们相信合成后的攻击者语音就是无害受害者的语音)来实施攻击。
我们攻击系统的第三阶段旨在展示语音安全泄露后的后果。
3.2 威胁模型
在我们的威胁模型中,攻击者可以收集受害者的少量音频样本,例如,通过使用移动音频录音设备在受害者知情或不知情的情况下进行录音,或者从网络上挖掘先前发布的音频样本。如前所述,这些样本随后被用于训练语音合成引擎。
在训练过程中,攻击者可以使用自己的语音,也可以招募其他用户(可能是一些能够非常接近模仿受害者语音的人)。因此,攻击者有能力采用各种手段来创造有利于语音转换的条件,从而获得最高质量的合成样本。
具备这种声音变形能力后,攻击者接下来试图攻破基于机器和基于人类的说话人验证系统/场景。在攻击基于机器的说话人验证系统时,攻击者只需发送合成语音来冒充合法用户。在这种情况下,我们明确假设攻击者对部署语音认证的终端或设备具有永久或临时的物理访问权限(例如,被盗手机、午餐时间无人看管的台式机或公共ATM)。
攻击者可以通过多种方式攻破基于人类的说话人验证。显然,在此情境下,通过声音变形无法伪造面对面交谈。然而,攻击者可以远程进行伪造电话,或留下冒充受害者的语音消息。他甚至可以在一名人类同伙的帮助下实现实时虚假通信,该同伙提供有意义的对话内容,语音变形引擎则实时将其转换为受害者的语音。攻击者还可以将受害者的合成样本发布到公共网站或通过社交网站传播,例如。
3.3 攻击基于机器的说话人验证
在本文中,我们系统地测试了可用于用户认证目的的先进说话人验证算法,测试场景如下:
不同说话人攻击
这种攻击指的是使用人类说话人B的语音样本对使用说话人 A语音训练的说话人验证系统发起攻击的情形。如果系统未能检测到此类攻击,则说明该系统在用于说话人验证目的时性能不足。这可以看作是针对自动说话人验证系统最简单且最朴素的攻击方式。因此,此类攻击可被用作衡量目标说话人验证系统安全性能的基线。
转换攻击
这种攻击场景指的是,冒充者使用合成样本替换合法用户的样本,从而对说话人验证系统发起攻击。此类攻击者可能具备攻击说话人验证系统的能力,该系统在受害用户尝试登录或认证时每次都会给出随机挑战。
3.4 攻击基于人类的说话人验证
在此场景中,攻击者只需创建受害者的任意合成语音,并利用该语音与他人进行远程通信。如前所述,此类攻击的一些实际应用可能包括以受害者的语音留下伪造语音邮件,从而伤害其家人或朋友,或广播名人受害者的合成语音以对其进行诽谤。尽管在许多情况下这种攻击本身相对简单,但关键在于“人工验证者”是否会受其蒙骗。这正是我们通过两项用户研究重点探讨的核心问题。
类似于我们对基于机器的说话人验证的研究,我们评估了转换攻击相对于不同说话人攻击作为基线在对抗基于人类的说话人验证时的性能。
4 工具与系统
Festvox语音转换系统
语音转换(如第2节所述)是一种新兴的语音变形技术。为实施我们的攻击,我们使用了卡内基梅隆大学开发的语音转换系统 Festvox[6]。
Festvox 采用声学‐发音逆映射,该方法利用一些统计模型从语音中确定说话人语音发音器官的位置。Toda等人在[41]中提出了一种基于高斯混合模型的声学‐发音逆映射方法,该方法不依赖于语音的语音信息。该系统的下一阶段是说话人之间的频谱转换,用于将源说话人的声音转换为目标说话人的声音。作者开发了一种频谱转换技术[42],其中采用了基于最大似然的估计方法,并考虑了每个语句的转换参数。这种独特频谱转换技术的评估结果显示,该技术的表现优于传统频谱转换技术[42]。对于我们的实验,
我们向Festvox提供了源(攻击者)和目标(受害者)说话人说出的提示音的录音。一旦系统完成训练,任何来自源说话人的给定录音都可以生成以目标说话人声音呈现的相应语音。
Bob Spear 说话人确认系统
在我们的实验中,我们使用了Khoury等人开发的Spear 验证工具箱。[30] Spear系统是一套开源说话人确认工具,已通过 Voxforge等标准数据集进行评估[12], MOBIO[7]和NIST SRE[8]。此外,该系统实现了当前知名的说话人验证算法,代表了说话人验证系统的最先进水平,因此是评估我们攻击方法的代表性系统。
该系统的输入为一组由多名说话人录制的语音片段,这些片段被划分为以下3个集合:训练集、开发集(Dev set)和评估集(Eval set)。训练集用于背景建模。开发集和评估集进一步划分为两个子集,即注册集(Dev.Enroll, Eval.Enroll)和测试集(Dev.Test, Eval.Test)。说话人建模可使用所提供的一种建模技术完成,具体包括高斯混合模型中的通用背景建模(UBM‐GMM)[37]和会话间变异性(ISV)[43]。
UBM‐GMM 是一种利用频谱特征并计算高斯混合模型对数似然的建模技术,用于背景建模和说话人验证[19,34,36]。ISV 是 UBM‐GMM 的改进,通过补偿说话人因年龄、环境、情绪状态等因素引起的变异性,从而在不同场景下对同一用户实现更优的性能[40,43]。
在建模阶段之后,系统分别使用开发集和评估集中的开发测试集(Dev.Test)和评估测试集(Eval.Test)进行调优和测试。开发测试集和评估测试集中的所有音频文件分别与对应开发集和评估集的每个说话人模型进行比较,并为每个文件相对于对应集合中的每个说话人生成一个相似度分数。开发测试集文件的分数用于设定一个阈值。评估测试集的分数随后被归一化,并与该阈值进行比较,根据比较结果将每个文件分配给一个说话人模型。如果音频文件确实属于其被分配的说话人,则验证成功;否则验证不成功。
5 实验:攻击基于机器的说话人验证
我们现在介绍使用语音转换技术攻击著名说话人验证算法所进行的实验。
5.1 设置
数据集
我们使用了MOBIO和Voxforge数据集,这两个广泛用于测试不同语音识别工具的开源语音数据库。
Voxforge在语音质量和时长方面相比MOBIO是一个更为标准的数据集。Voxforge的语音样本质量较高,每段约5秒,而MOBIO数据集是使用笔记本电脑麦克风录制的,且语音样本长度在7到30秒之间不等。选择这两个数据集的原因是为了测试我们的攻击方法对标准和非标准音频样本的有效性。我们从 Voxforge中选取了28名男性说话人,从MOBIO中选取了152名(99名男性和53名女性)说话人。为实验目的,该说话人集合被划分为三个子集。这三个子集分别用于工具包的背景建模(训练集)、开发(开发集)和评估(评估集)。
开发集(Dev.Test)包含每位10名说话人的30个无标签语音样本,即总共300个语音样本。相比之下,MOBIO数据集的 Dev.Test子集包含24名男性和18名女性说话人的105个无标签样本。
Dev.Test集中的样本用于调整系统参数,以使系统在评估集上表现良好。
MOBIO数据集包含男性和女性说话人,并在两个独立的系统中分别进行建模。
由于我们是在说话人验证场景中使用说话人识别工具,因此我们的评估(Eval)集始终只包含单个说话人。对于Voxforge,我们测试8名(男性)说话人;对于MOBIO,我们测试38名男性和20名女性说话人。
使用的度量
说话人验证系统的性能基于错误拒绝率(FRR)和错误接受率(FAR)进行评估。一个良性场景被定义为测试样本全部为真实样本的情况,即输入系统的样本均由原始说话人(其样本在训练阶段被使用)说出。如果系统接受了某个测试样本,则表示系统成功识别了该说话人;而若系统拒绝了该样本,则意味着系统错误地拒绝了一个真实样本,这将被计为一次错误拒绝。
一种攻击场景被定义为测试样本为伪造或混合的场景。也就是说,这些样本并非由原始合法说话人说出,而是由其他说话人(另一用户)说出,或通过语音转换生成的。为了模拟攻击场景,我们在评估测试集中用伪造样本替换了真实样本。因此,我们攻击的成功率与系统错误接受的数量成正比,即与错误接受的数量成正比。
不同说话人攻击设置
在此场景下测试Voxforge数据集时,我们将原始说话人的语音样本替换为4名CMU Arctic说话人所说的相同样本的语音,并测试了系统的性能。对于MOBIO数据集的测试,我们用测试集中所有其他说话人逐一替换每个说话人,以检测系统是否能判断出原始说话人已被替换。[4]当在第3节中讨论的,这种攻击是一种相当简单的攻击,可作为我们基于转换攻击的基线。
转换攻击设置
在此攻击场景中,我们测试了Spear系统对语音转换的鲁棒性。为实施此攻击,我们将真实的测试样本替换为转换后的样本。语音转换是通过使用攻击者和受害者说话人说出的一组样本来训练Festvox转换系统实现的。
在Voxforge数据集中,一名CMU北极[4]说话人充当攻击者,测试集中的8名说话人为受害者。对于MOBIO数据集,我们选择测试集中6名男性和3名女性说话人作为攻击者,其余32名男性和17名女性说话人为受害者。
对于Voxforge数据集,我们使用了100个样本,每个样本5秒(总共约8分钟语音数据)来训练转换系统。在MOBIO数据集中,说话人针对提出的问题独立录制了自由语音。然而,所有说话人都录制了一些特定的公共文本。我们使用了其中约12个样本,每个样本约30秒(总共约6分钟语音数据)来训练转换系统。生成的转换后的语音随后与受害测试说话人的真实样本进行了替换。
对于MOBIO说话人,在12个训练样本(平均长度30秒)的情况下,转换后的MCD值约为4.58分贝(女性)和约4.9分贝(男性),而在约100个训练样本(长度为15‐30秒)时,该值分别下降了0.16分贝(女性)和0.1分贝(男性)。对于Voxforge,MCD值在50、100、125个训练样本(每个平均长度5秒)的情况下分别为平均5.68分贝、5.59分贝、5.56分贝。MOBIO女性的MCD改善程度可忽略,约为3%,MOBIO男性约为2%,Voxforge说话人约为0.53%,因此我们选择对MOBIO使用12个训练样本,对Voxforge使用100个训练样本。由此证实,语音转换即使仅使用小型训练数据集也能良好运行(这是我们攻击的基本前提)。
5.2 结果
良性设置结果
本实验旨在为所研究系统的性能建立基线。使用8名 Voxforge说话人、38名男性和20名女性MOBIO说话人的原始片段来评估系统。该测试针对UBM‐GMM和ISV两种算法均进行了实验。结果汇总于表1的第2、第5和第6列。结果显示,真实(原始说话人)样本的拒绝率(即FRRs)非常低,在Voxforge说话人中低于2%,在MOBIO说话人中约为7%‐11%。对于 UBM‐GMM,男性和女性MOBIO说话人的标准差均超过10%;而对于ISV,其标准差约为8%‐9%。MOBIO数据集中不同说话人之间语音质量的差异可能是导致该结果的原因。
不同说话人攻击结果
该攻击的结果见表1的第3、7和8列。从结果可以看出,误识率在Voxforge说话人中低于1%,在男性MOBIO说话人中约为10%,在女性MOBIO说话人中约为16%。UBM‐GMM和ISV算法在此类攻击下的表现似乎相似。然而,女性说话人的误识率较高,这可归因于MOBIO数据集中其语音的相似性水平。两个数据集的接受率均显著偏低,证明Spear对简单的不同说话人攻击具有较强的鲁棒性,能够以至少94%的准确率(Voxforge)和至少84%的准确率(MOBIO)成功检测出说话人已被更换。这使得Spear成为一个值得针对更复杂攻击进行挑战的系统。
转换攻击结果
此种情况下的误识率在 Voxforge上高于98%,男性MOBIO说话人约为70–85%,女性MOBIO说话人约为60%。然而,MOBIO数据集中说话人对应的标准差似乎相当高(男性约为28%,女性约为36%)。因此,我们分析了MOBIO数据集中所有测试用户误识率值的分布情况(附录3中的图C)。对于MOBIO男性说话人,我们发现使用 UBM‐GMM时有60%的说话人误识率达到90%,使用ISV时超过30%的说话人误识率达到90%。总体而言,约88%(UBM‐GMM)和约85%(ISV)的男性说话人误识率超过50%。对于女性说话人,约52%(UBM‐GMM)和约47%(ISV)的说话人成功率高于90%。总体而言,约70%(UBM‐GMM)和65%(ISV)的说话人成功率超过50%。因此,可以合理地说,所测试的算法在应对我们的语音转换攻击时表现显著不佳。
转换攻击 vs. 不同说话人攻击
我们使用威尔科克森符号秩检验比较了转换攻击的平均误识率与不同说话人攻击的平均误识率,发现差异具有统计学显著性2(对于两种算法中的男性),p值为= 0;(对于UBM‐GMM中的女性),p值为= 0.0015;(对于ISV中的女性),p值为= 0.0019(针对MOBIO数据集);以及对于Voxforge数据集,在两种算法情况下p值为= 0.0004。因此,转换攻击明显比不同说话人攻击更成功。
2 所有显著性结果均在95% 置信水平下报告。
UBM-GMM vs. ISV
在这两种攻击中,ISV算法表现与GMM算法相当,甚至在某些情况下更优。我们使用威尔科克森符号秩检验对这两种算法进行了比较,注意到在针对男性MOBIO说话人的转换攻击中结果具有统计学显著性(p值= 0.0147),以及在女性MOBIO说话人的良性场景中也具有统计学显著性(p值= 0.0466)。这一结果是预期之中的,因为ISV具有会话变异性参数,使其性能优于UBM‐GMM,而且MOBIO数据集是在多个会话中录制的。
与MOBIO相比,Voxforge数据集作为更优且标准的数据集,具有更高的攻击成功率。语音转换的质量在此起着重要作用。在Voxforge数据集的情况下,用于语音转换的攻击者(源)样本来自CMU Arctic数据库,其中包含在专业录音环境中录制的样本。然而,在MOBIO的情况下,攻击者样本选自MOBIO自身的测试集,这对其转换质量产生了不利影响。此外,MOBIO中说话人的说话风格差异较大,这也可能是影响语音转换训练的因素之一。
6 实验:攻击基于人工的说话人验证
现在,我们研究人类在任意人与人之间的通信中可能受到语音转换攻击影响的程度。
6.1 设置
为了评估我们的语音模仿攻击对人类用户的性能,我们开展了两项基于网络的研究,分别涉及65名和32名Amazon Mechanical Turk (M-Turk)在线工作者。
在第一项研究(即著名说话人研究)中,我们探讨了一种场景:攻击者模仿一位受欢迎的名人,并在互联网上发布或通过广播播放其合成的虚假语音样本。我们在案例研究中选择名人的主要原因是利用人们对其声音已有的熟悉度。在第二项研究(称为短暂熟悉说话人研究)中,我们考虑了另一种场景:人类会接触到一位短暂熟悉的人员的(虚假)声音(例如,在会议上被短暂介绍过的某人)。用户未能检测此类攻击将表明,许多依赖(隐式)人类说话人验证的现实世界场景存在漏洞。
我们的研究涉及人类受试者,他们参与提供语音样本以构建我们的语音变形引擎,并评估我们攻击的可行性(转换语音的人工验证)。他们参与本研究完全是自愿的。参与者在研究开始前提供了知情同意,并可随时选择退出研究。
我们遵循标准最佳实践,以保护研究期间收集的参与者回应和音频样本的保密性/隐私性,以及研究中生成的变形后音频样本。我们的研究已获得大学机构审查委员会的批准。
我们两项研究的参与者人口统计信息汇总见附录A表3。大多数参与者是年轻、受过良好教育且没有听力障碍的以英语为母语的人。对于第一项和第二项研究,每位参与者分别获得1美元和3美元的报酬,完成研究分别需要大约30分钟和45分钟。
6.2 数据集
为了构建我们研究所需的数据集,我们开发了一个应用程序,用于从一组美国说话人中收集音频样本,并在M-Turk上发布了该任务。该任务要求模仿两位名人,即奥普拉·温弗瑞和摩根·弗里曼。
我们收集了互联网上这些名人的部分音频样本,并使用我们的应用程序将这些样本播放给说话人(他们扮演攻击者),要求男性说话人重复并录制摩根·弗里曼的片段,女性说话人录制奥普拉·温弗瑞的片段。在收集这些音频样本时,我们明确要求说话人尽可能模仿他们所听到的名人的说话风格和情感(我们的威胁模型允许利用此类手段进行攻击)。每位用户大约需要一小时来录制摩根(男性名人)和奥普拉(女性名人)各自的约100个样本。每位参与者完成此任务可获得10美元报酬。在为期两周的时间内,我们从20位说话人中收集了样本。
其中,我们挑选出5名男性和5名女性说话人,他们能够在无噪声环境中成功录制全部片段,并且其风格和语速与原始说话人相似。最终10名参与者的 demographic information 已在附录A表3中给出。
6.3 转换过程
从M-Turk参与者收集的音频数据作为源语音,用于合成奥普拉和摩根的声音(著名说话人研究)。同一数据集被用来生成4位短暂熟悉的目標说话人的声音(短暂熟悉说话人研究)。
我们使用CMU Festvox语音转换器将攻击者语音转换为目标语音,观察到在训练数据集中分别使用25、50、100和125句话时,平均MCD值分别为7.52分贝、7.45分贝、7.01分贝和6.98分贝。这表明当训练数据集大小从25句增加到50句、50句增加到100句、100句增加到125句时,MCD值的改善分别仅为1%、6%和不到1%。该结果证实了即使使用小型训练数据集,该转换系统仍然具有良好的适用性。由于在不同样本量下MCD值的改善幅度较小,我们将训练数据集大小固定为100句话,每句话平均持续时间为4秒。
我们将5位女性说话人的声音转换为奥普拉的声音,以及5位男性说话人的声音转换为摩根的声音(著名说话人研究)。我们还通过将女性攻击者的声音转换为女性目标的声音,以及男性攻击者的声音转换为男性目标的声音,生成了2位女性和2位男性声音(短暂熟悉说话人研究)。
6.4 名人语音研究
在这项研究中,我们要求参与者首先聆听每位受害者名人(奥普拉和摩根)的两分钟演讲,以帮助回忆他们的声音。熟悉之后,参与者需要聆听多个音频片段,并完成以下两项任务:“说话人验证”和“语音相似性”。
说话人验证测试
在第一组问题中,我们播放了22段约15秒的音频片段,要求参与者判断说话人是否为奥普拉。对于每个问题,他们可以选择“是”表示能够识别出奥普拉的声音,“否”表示能察觉该声音不属于奥普拉,或选择“不确定”表示无法准确分辨正在播放的是谁的声音。所展示的样本中有4个是来自不同演讲的奥普拉的声音,8个样本来自前文所述数据集中的不同说话人,5个样本来自我们的转换后语音数据集,这些是通过对数据集进行语音转换生成的。
关于摩根也提出了类似的一组问题。摩根的挑战包含从不同演讲和访谈中选取的4个摩根的声音样本、6个不同说话人的样本,以及从我们的语音转换数据集中的选取的6个转换后的语音样本。
语音相似性测试
在第二组问题中,我们播放了多个样本(原始说话人、不同说话人和转换后的声音),并要求用户对这些样本与两位目标说话人声音的相似性进行评分。我们定义了五个评分等级来衡量相似性/相异性——“完全相似”、“非常相似”、“有些相似”、“不太相似”和“不同”。对于每个音频样本,参与者可根据该挑战声音与名人自身声音的相似程度,从5个选项中选择一项。在奥普拉的问题集中,共呈现了4个原始说话人、5个转换后的声音和6个不同说话人的样本。类似地,在摩根的问题集中,播放了4个原始说话人、6个转换后的声音和7个不同说话人的样本。
在两次测试中,我们将音频片段分为三类,即原始说话人(良性场景)、不同说话人攻击和转换攻击。
结果
说话人验证测试的结果总结在表2中。用户回答原始说话人挑战的成功率显示在表2的第一行(第2列和第5列),奥普拉为89.23%,摩根为91.54%(在所有参与者的所有样本上取平均)。这些结果表明,参与者在识别原始说话人的声音方面相当成功。
表2的第二行(第3列和第6列)展示了检测不同说话人攻击的准确率。结果表明,大多数参与者能够区分不同说话人的声音与原始说话人的声音。对于奥普拉,正确识别不同说话人的比率为95.19%;对于摩根,该比率为97.95%(在所有参与者中对所有不同说话人样本取平均值)。结果表明,参与者在检测不同说话人方面比验证原始说话人方面更为成功。
然而,参与者在检测转换攻击方面的成功率并不高(表2的第三行;阴影单元格)。成功检测出转换攻击存在的比例约为50%(对所有参与者的所有语音变形样本取平均值)。有趣的是,在检测转换攻击时不确定性有所增加(从“不确定”回答的增多可以推断出这一点)。这表明,与原始说话人的声音样本和不同说话人的声音样本相比,参与者在识别转换后的声音时感到困惑。在现实生活场景中,参与者在识别说话人身份时的这种困惑可能会显著影响其验证说话人身份的准确率。原因在于,在本实验中,参与者可以选择回答“不确定”,而在实际应用程序中,用户必须决定接受或拒绝一次对话(例如语音消息),他们可能只能依靠随机猜测,从而可能接受非法的对话或拒绝合法的对话。
我们使用威尔科克森符号秩检验比较了两种攻击(不同说话人和转换攻击),并注意到对于我们的两个熟悉说话人而言,结果在统计上均具有显著性(p值 = 0)。
语音相似性测试的结果显示,大多数参与者认为原始说话人的样本与其原始声音“完全相似”或“非常相似”。只有极少数情况下,参与者认为原始样本与原始说话人的声音不同或不太相似。这与说话人验证测试结果高度一致,表明人们能够成功识别同一说话人不同样本之间的相似性。88.08%的参与者认为奥普拉的声音样本与她的声音完全相似或非常相似,而95.77%的参与者认为摩根的声音样本与他的声音完全相似或非常相似。
正如预期,用户能够察觉到不同说话人的声音与原始说话人的差异。86.81%的参与者认为不同说话人的声音与奥普拉的声音“不同”且“不太相似”;对于摩根的声音,这一比例为94.36%。极少有用户认为不同说话人的声音与原始说话人的声音相似。与说话人验证测试一致,语音相似性测试表明参与者在识别不同说话人方面取得了成功。
我们的研究表明,大多数用户认为转换后的声音与原始说话人“有些相似”或“非常相似”。有74.10%的用户认为转换后的声音与奥普拉的声音“非常相似”或“有些相似”,而对摩根的声音这一比例为59.74%。语音转换使攻击者语音听起来与原始目标语音相似。转换效果取决于多个参数,包括转换前源(攻击者)与目标语音之间的相似性,以及初始源和目标录音中存在的噪声水平。由于我们对所有转换均使用了相同的目标语音样本(奥普拉、摩根),因此不同转换之间的差异主要源于源(攻击者)录音中的环境噪声。质量更高的源录音在转换中表现更佳。假设攻击者有能力提升其录音的质量以改善转换效果。在我们的研究中,奥普拉的转换后的声音比摩根的转换后的声音更接近其原始声音。然而,我们不能将此结果推广到所有说话人和所有转换情况。
6.5 简短的说话人熟悉度研究
与著名说话人研究类似,我们开展了一项研究,评估人类用户识别短暂熟悉的说话人的性能。在本研究中,我们从数据集中选取了两名女性和两名男性说话人作为受害者,并从第6.2节提到的同一数据集中选取了另外两名女性和两名男性说话人作为攻击者。我们要求参与者首先收听一段90秒的受害者语音录音,以熟悉该声音,然后针对每位说话人回答15个说话人验证挑战题和15个语音相似性挑战题(每个音频样本约15秒长)。与之前的研究一样,在说话人验证测试中,参与者需验证说话人身份;在语音相似性测试中,参与者需对音频片段与原始说话人的声音之间的相似性程度进行评分。音频片段分为三类:5个来自原始说话人,5个来自不同说话人,5个为转换后的声音。此外,我们还询问了参与者对任务的看法以及他们判断的定性依据。为了排除可能不够专注的参与者,我们在挑战题中加入了虚拟问题,要求用户从答案中选择最右侧的选项。
结果
表2包含短暂熟悉说话人研究的结果,该结果是对所有参与者和所有说话人的平均值。参与者在四名说话人中正确识别原始说话人的平均成功率为74.68%(第1行,第8列)。用户区分不同说话人的平均成功率为82.81 %(第2行,第9列)。这些结果表明,总体而言,与著名说话人相比,参与者在验证短暂熟悉的说话人时似乎成功率较低。
重要的是,检测转换攻击的平均成功率为47.81%(第3行,第9列)。这表明超过50%的用户无法检测到转换攻击,即他们要么将转换后的声音误认为是原始说话人的声音,要么无法验证说话人身份。我们使用威尔科克森符号秩检验对两种攻击(不同说话人和转换攻击)进行了比较,发现结果具有统计学显著性(p值 = 0.0038),这意味着转换攻击的效果显著优于不同说话人攻击。
相似性测试的结果表明,大多数参与者认为良性设置中的样本与原始说话人的声音完全相似,而大多数参与者认为不同说话人攻击场景中的样本与原始说话人的声音不同。转换后的声音的相似性被评为与原始说话人的声音某种程度上相似,介于不同说话人的声音评分和原始说话人的声音评分之间。
调查结束时,我们询问了参与者他们认为识别说话人的任务有多容易或困难,他们做出判断的依据是什么,以及可能有哪些因素能够提高参与者的准确率。总体而言,他们认为说话人验证是一项具有挑战性的任务,声音质量是验证说话人时的一个重要因素。他们的回答摘要见附录D。
6.6 短时熟悉说话人与名人说话人验证
我们比较了两种设置(著名说话人和短暂熟悉的说话人)下攻击的性能。尽管曼恩‐惠特尼U检验的结果在转换攻击情况下未显示出两种设置之间的统计学显著性,但对于奥普拉和摩根合并后的不同说话人攻击,结果具有显著性(p值 = 0)。这表明,在著名说话人设置下,人们能够更好地检测到不同说话人攻击,相较于短暂熟悉的说话人设置。
无法区分说话人的参与者比例似乎比著名说话人研究有所增加(如表2最后一列所示)。这表明,随着对说话人熟悉度的降低,识别说话人的模糊性增加。Mann‐Whitney U检验的结果证实,对于转换攻击而言,这种增加具有显著性(p值 = 0.0076),但对于奥普拉和摩根两种情况下的另外两种设置(原始说话人和不同说话人)则不具有显著性。
7 总结
我们探讨了如何利用语音转换轻易破坏人类声音的真实性,以及这种破坏如何影响基于机器和基于人类的说话人验证的安全性。我们针对最先进的说话人验证算法发起的语音转换攻击具有非常高的成功率,约为80–90%。这表明,当前的算法将无法阻止具备合成能力的恶意冒充者访问采用语音生物特征识别的认证终端或远程服务。在我们对人工验证发起的攻击中,目标受害者既包括知名用户(名人),也包括短暂熟悉用户。针对这两类受害者的实验结果均表明,即使人类也容易被欺骗,在近50%的情况下认为合成样本来自真实说话人。人们似乎能更好地检测针对名人声音的攻击,而非短暂熟悉的声音。鉴于这一结果,攻击者似乎有相对较高的可能性破坏远程任意人际对话的真实性。
语音转换是我们所有攻击的核心。因此,为了取得最佳效果,攻击者应努力提高语音转换的质量。这可以通过在可能的情况下选择目标(受害者)的高质量音频样本,以及为源(攻击者)创建高质量的音频样本以尽可能模仿受害者的语音和言语风格来实现。此外,如有需要,攻击者可在执行语音转换前后对受害者的音频样本进行处理,以提升语音质量(例如,通过滤除噪声)。
8 结论、局限性和未来工作
在本文中,我们研究了人类声音如何被轻易窃取,并用于攻击依赖这些声音的应用程序和场景,特别是针对基于机器和基于人类的说话人验证。我们证明了语音转换构成了严重威胁,且我们的攻击在大多数情况下均能成功。令人担忧的是,针对基于人类的说话人验证的攻击在未来可能会更加有效,因为语音转换/合成的质量将持续提升,而可以肯定的是,人类的辨别能力可能不会随之提高。
我们目前的研究存在某些局限性,这些局限性可能会影响攻击在现实生活中实施时的结果。首先,我们仅使用了已知的最先进的生物特征说话人验证系统和一种现成的语音转换工具来实施我们的攻击。可能存在其他系统,特别是工业界使用的系统,在我们的攻击下可能会产生不同(更好或更差)的结果。
其次,我们的任意语音攻击旨在模仿这样一种场景:攻击者将受害者的伪造音频样本发布到互联网上,甚至向某人的电话留下伪造语音消息。当前的研究并未告诉我们这些攻击在其他场景下的效果,例如伪造实时通信或伪造法庭证据。
第三,我们在人类验证研究中要求参与者在回答之前仔细关注样本。然而在现实生活中,如果有人发布了一段音频片段或留下了语音邮件,人们可能不会如此仔细地留意。因此,在这种情况下,现实中接受合成样本的可能性实际上可能增加(相较于我们的研究)。所有这些问题都应成为进一步研究的主题,我们计划对此进行探索。
在这些局限性中,我们的研究也有一定的优势。参与本研究的用户在任意语音实验中都相当年轻,且没有听力问题。老年人或有听力障碍的人可能在面对我们的攻击时表现更差。此外,如果由受过训练的模仿艺术家充当攻击者,从而生成更好的语音转换模型,我们的结果可能会更好。
尽管防范我们的攻击似乎颇具挑战性,但仍有可能采取一些方法,确保自己的声音首先不会被对手窃取。此类措施可能包括提高人们对这些攻击的意识,以及人们在发布自己的音视频材料时保持警惕。另一道防线在于挫败公共场所的音频监控。例如,在公共场所实施更严格的音频录制政策,或使用高频音频发射器主动阻止音频监控,从而掩盖录音(且不影响人类感知)。目前已有商用设备可用于干扰音频并破坏音频监控系统[1,3]。
另一种自然的防御策略是开发能够抵抗语音转换攻击的说话人验证系统,该系统可通过使用说话人活体检测的活体检测来实现。Baughman 等人提出了一种说话人活体检测领域的技术方案[17]。在我们的未来工作中,我们计划研究这些不同的防御策略。
717

被折叠的 条评论
为什么被折叠?



