【论文学习】《A Overview of Spoof Speech Detection for Automatic Speaker Verification》

本文概述了自动说话人验证(ASV)系统中的欺骗攻击,包括语音合成、语音转换、重放、双胞胎和模仿。介绍了ASVspoof挑战系列数据库的发展,以及合成和重放欺骗检测的对策,如经典方法和表征学习。讨论了技术局限性和未来研究方向,指出SSD任务仍面临挑战,需要稳健对策应对高保真语音合成技术的发展。

《A Overview of Spoof Speech Detection for Automatic Speaker Verification》论文学习

  摘要

       近年来,语音生物识别技术被广泛应用于各种说话人识别领域。自动说话人验证(ASV)系统的欺骗干扰和抗欺骗干扰是目前研究的热点。ASV系统最近的技术进步使得人们对确保这些语音生物识别系统在现实应用中的安全性越来越感兴趣。ASV系统容易受到各种欺骗攻击,即语音合成(SS)、语音转换(VC)、重放、孪生和模仿。本文提供了欺骗干扰检测、新型声学特征表示、深度学习、端到端系统等方面的文献。此外,本文还对欺骗攻击的研究进行了综述,重点介绍了SSVC和重放攻击,以及近年来针对欺骗语音检测(SSD)任务开发的对策。指出了SSD任务的局限性和面临的挑战。虽然在文献中提出了一些对策,但它们仅限于特定的数据库。为了解决这类问题,SSD任务需要一个健壮的对策。甚至有文献表明,尽管该对策对特定的数据库是有效的,但欺骗干扰检测问题还远远没有解决,因此语音生物识别系统仍然容易受到欺骗攻击。本文可以为有兴趣从事SSD任务的研究者提供一个良好的起点。
       
       关键词:自动说话人验证(ASV),欺骗攻击,数据库,性能评估指标,对策。
       

  1 介绍

       生物识别系统旨在从个体的行为和/或生物特征来验证其身份(《50 years of biometric research: Accomplishments, challenges, and opportunitie》,《Biometrics systems under spoofing attack: An evaluation methodology and lessons learned》)。可用于生物识别的身体特征分为解剖特征和行为特征(《Biometrics: A tool for information security》)。解剖特征包括面部(《Handbook of Face Recognition》)、指纹(《Handbook of Fingerprint Recognition》)、虹膜(《The importance of being random: Statistical principles of iris recognition》)、掌纹(《Palmhashing: A novel approach for cancelable biometrics》)、手形(《Biometric identification through hand geometry measurements》)、耳形(《Biometric recognition using 3D ear shape》);步态(《Multimodal biometric system using face, ear and gait biometrics》),特征(《Automatic on-line signature verification》),按键动态(《Authentication via keystroke dynamics》)是一些行为特征(《Biometric template security》)。声音生物识别可以被认为是一种解剖学特征或行为特征(《Biometrics: A tool for information security》)。尽管在这一研究问题上取得了重大进展,但一些生物识别系统无法保证数据的安全性和鲁棒性要求,无法在实际场景中进行部署。
       
       在过去的几十年里,人们对具有说话人识别功能的语音技术有很高的需求。特别是,说话人识别任务被用于验证和/或识别。说话人的识别是一个比验证更难的问题,因为识别系统必须执行大量的比较。自动说话人验证(ASV)系统的目标是确定或验证每个说话人的声音的身份。一般的ASV系统对于简单攻击来说是健壮的,但对于更复杂的攻击是脆弱的。在当前对ASV系统威胁的担忧中,欺骗是其中一个漏洞。
       
       欺骗是指说话人伪装成目标说话人以获得对安全数据的访问(《On the vulnerability of speaker verification to realistic voice spoofing》,《Spoofing and countermeasures for automatic speaker verification》)。ASV或生物识别领域的欺骗攻击一般被认为是国际标准化组织(ISO)和国际电工委员会(IEC)(《International organization for standardization》)规定的表示攻击的一部分。
       
       当生物识别技术被公开使用时(例如,用指纹识别出勤),黑客就能轻而易举地破解识别技术。欺骗也会发生在各种生物特征上,如指纹、虹膜、面部和声音(如图1所示)。在这个图1中,我们可以看到原始生物特征的燕鸥是如何被不同的技术欺骗的。本文主要研究ASV系统中基于语音的欺骗干扰和抗欺骗干扰技术。
图1
       欺骗语音样本可以通过合成包含目标说话人特征的语音来获得,包括将假名语音转换为目标说话人语音的语音转换方法,或者使用目标说话人录制的语音样本。根据欺骗样本注入ASV系统的方式,攻击大致可分为直接攻击和间接攻击两大类。在直接攻击(物理访问攻击)中,样本通过传感器作为输入应用到ASV系统中,即在麦克风和传输级。在间接攻击(逻辑访问攻击)中,样本涉及绕过传感器,即ASV系统软件流程、特征提取过程中的访问、干扰模型以及决策或评分计算,如图2(《Presentation attack detection using long-term spectral statistics for trustworthy speaker verification》)所示。
图2
       针对不同的数据集,提出了不同的语音欺骗检测方法。然而,早期使用的数据库不是标准的欺骗数据库,它们是从不同的语料库开发的,如YOHOWSJNIST SRE。因此,需要提供一个通用数据集和性能指标来评估欺骗干扰对策。在INTERSPEECH 2013(《Spoofing and countermeasures for automatic speaker verification》)举行的ASV欺骗和对策特别会议上也观察到了这一点。在这一特别会议的激励下,研究人员在INTERSPEECH 2015(《ASVspoof 2015: The first automatic speaker verification spoofing and countermeasures challenge》)举办了第一届ASVspoof 2015挑战赛。本次挑战中发布的数据库包含两种欺骗攻击,SSVC。此外,作为第一届ASV恶搞挑战赛的后续,INTERSPEECH2017年举办了第二届聚焦重播恶搞攻击的挑战赛。ASVspoof计划的历史发展和关键里程碑通过图3所示的时间线进行了说明。
图3
       在ICASSPINTERSPEECH和其他生物统计学会议上,专注于欺骗检测的研究论文激增。欺骗检测在期刊上也有专刊,如IEEE和最近宣布的计算机语音和语言(CSL)(《Special issue on speaker and language characterization and recognition: voice modeling, conversion, synthesis and ethical aspects》)专刊。近日,在APSIPA-ASC 2018(《Replay attack anti-spoofing measures for ASV systems》)举行了一场关于ASV系统重放攻击防欺骗措施的特别会议。主办方还计划举办第三届ASVspoof 2019挑战赛,将有物理和逻辑访问攻击(《ASVspoof 2019: Automatic speaker verification spoofing and countermeasures challenge》)。因此,现在正是对欺骗检测问题的最新进展、挑战和发展进行综述的时候。
       
       在《Biometrics systems under spoofing attack: An evaluation methodology and lessons learned》中对生物特征和欺骗攻击进行了全面的讨论,讨论了欺骗攻击的漏洞、评估方法和应对措施,并展望了未来的研究方向。《Spoofing and countermeasures for speaker verification: A survey》报道了关于ASVspoof挑战的第一份调查报告。本文对以往的工作进行了讨论,确定了未来的重点研究方向,并对欺骗攻击的研究进行了总结。《ASVspoof: The automatic speaker verification spoofing and countermeasures challenge》的研究提供了2015ASVspoof挑战的数据集、协议和指标的细节。它还包括对参与者系统的简要描述,他们各自的结果,包括那些从系统融合中得到的结果,并进行详细的分析。
       
       最近在《A survey on replay attack detection for automatic speaker verification (ASV) system》上发表了一篇调查论文,讨论了重放欺骗攻击、局限性和技术挑战,并提出了重放SSD任务的未来发展方向。这篇调查论文贡献和讨论了与其他欺骗攻击和重放攻击有关的内容。在本文中,我们描述了各种欺骗攻击,并讨论了在SSD任务研究中使用的不同类型的欺骗数据库。我们比较了针对合成语音和重放检测提出的不同对策。特别地,我们讨论了不同的经典学习和表示学习方法的SS和重放检测。本文还讨论了SSD任务的局限性和挑战,以及未来欺骗干扰研究的方向。
       
       本文其余部分的组织如下:对各种欺骗攻击的讨论在第二节中进行。第三节讨论了不同的欺骗数据库和性能评估指标。在第四节和第五节中,我们讨论了SSD任务合成和重放的不同对策。在本节中,我们介绍了在经典和表示学习方法中欺骗检测的对策。第六部分描述了欺骗干扰研究的局限性、技术挑战以及未来的研究方向,最后第七部分对本文进行了总结。
       

  2 ASV 系统:欺骗攻击

       在文献中,欺骗攻击大致分为五种类型,即语音合成(SS)、语音转换(VC)、重放、孪生和模仿。用于欺骗攻击的欺骗干扰算法很少,见图4。接下来讨论每种欺骗攻击的详细描述。
图4

    2.1 双胞胎

       很多时候,语音数据足以识别说话人,但如果是双胞胎,使用语音数据(《On the similarity of identical twin fingerprints》)很难区分。一般使用光谱分析来识别说话人的声音。在同卵双胞胎的情况下,同样的技术不能证明(《Spectrographic speech patterns of identical twins》)。在《Variable length Teager energy based mel cepstral features for identification of twins》上报道的这项研究表明,同卵双胞胎扬声器的语音信号模式、音高(F0)轮廓、共振峰轮廓和声谱图即使不是完全相同,也是非常相似的。由于缺乏唯一性,同卵双胞胎验证的FAR值增加。尽管科学和计算机已经提出了新的和强大的识别技术,仍然没有一种万无一失的方法来区分同卵双胞胎。随着世界范围内双胞胎比率的增加,需要新的方法来区分双胞胎。最近,汇丰银行的电话银行业务推出了“语音识别”服务,并宣传说:“可以在没有保安成本的情况下,为顾客提供更方便的服务(《HSBC reports high trust levels in biometric tech as twins spoof its voice ID system》)。”语音识别可以在几秒钟内分析你的声音,检查超过100个行为和身体的声音特征,包括你的嘴的大小和形状,你说话的速度,以及你如何强调单词(《BBC fools HSBC voice recognition security system》)”。最近,一对双胞胎兄弟模仿哥哥的声音,进入了哥哥的账户(《Twins fool HSBC voice biometrics - BBC》),因此语音识别软件的安全性受到了质疑。其他生物统计学文献(《On the similarity of identical twin fingerprints》)对相似双胞胎欺诈进行了研究。同卵双胞胎有一个相似的声谱模式,然而,这种技术的引入已经显著减少欺诈,并已被证明是比PINS,安全密码和难忘的短语。因此,语音识别技术目前银行安全、可靠的终极方法(《BBC fools HSBC voice recognition security system》)。该银行坚持认为,尽管语音遗传存在漏洞,但语音识别是一种非常安全的客户身份验证方法。
       

    2.2 模仿

       模仿被定义为产生目标说话人声音相似的语音模式和言语行为的过程(《Phonetic imitation, accent, and the learner》,《Vulnerability of speaker verification to voice mimicking》,《I-vectors meet imitators: On vulnerability of speaker verification systems against voice mimicry》)。模仿者不需要任何技术背景或机器来适当地模仿目标说话人。(《Testing voice mimicry with the YOHO speaker verification corpus》)发表的这项研究发现,如果冒名顶替者知道说话人的声音,并且拥有相似的声音模式,就可以破解生物识别系统。为了更好的模仿,专业模仿者尝试模仿目标说话人(《How vulnera- ble are prosodic features to professional imitators?》)的韵律特征。专业声音模仿者,旨在模仿声称说话人的韵律、口音、发音、词汇和其他高级说话人的特征。使用声谱线索或基于系统的方法对冒名顶替者没有用处(因为模仿者不会改变声道系统的形状和大小,以目标说话者的形状和大小)。
       

    2.3 语音合成

       语音合成(SS)也被称为文本到语音(TTS)系统,文本在输入端给出,系统在输出端产生语音信号。它是一种机器生成的声音生成系统,代表着真正的威胁。由于单元选择(《Unit selection in a concatena- tive speech synthesis system using a large speech database》)、统计参数(《Statistical parametric speech synthesis》)、混合(《A unified trajectory tiling approach to high quality speech rendering》)和基于DNNTTS方法的最新进展,SS现在能够生成高质量的语音。近年来,基于深度学习的技术,如生成对抗网络(Generative Adversarial Network, GAN)(《Statistical parametric speech synthesis incorporating generative adversarial networks》)、Tacotron(《Tacotron: Towards end-to-end speech synthesis》)、Wavenet(《Wavenet: A generative model for raw audio》)等,能够生成非常自然的语音,包括韵律内容。SS利用了自称说话人的声音特性和自然语音的频谱线索。自然语音信号(图1)和合成语音信号(图2)的光谱能量密度如图5所示(语音信号取自SAS语料库(《SAS: A speaker verification spoofing database containing diverse attacks》))。从图 5(b) 可以明显看出,与自然语音信号相比,SS信号的频谱能量包含更多的能量。更多用于SS语音信号开发的算法的技术描述见(《SAS: A speaker verification spoofing database containing diverse attacks》,《Evaluation of speaker verification security and detection of HMM-based synthetic speech》)。
       

    2.4 语音转换

       语音转换(Voice Conversion, VC)是将源说话人的声音转换为与目标说话人声音相似的声音的过程(《Vulnerability of speaker verification to voice mimicking》,《Artificial impos- tor voice transformation effects on false acceptance rates》,《Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech》)。VC处理与分段和超分段特征相关的信息,保持语言内容类似(《Voice conversion versus speaker verification: An overview》)。早期的研究使用了统计技术,如高斯混合模型(GMM)(《Continuous probabilistic transform for voice conversion》)、隐马尔可夫模型(HMM)(《Hidden Markov model based voice conversion using dynamic characteristics of speaker》)、单元选择(《Text-independent voice conversion based on unit selection》)、主成分分析(PCA)(《Probabilistic principal com- ponent analysis applied to voice conversion》)和非负矩阵分解(NMF)(《Non- negative matrix factorization using stable alternating direction method of multipliers for source separation》)。最近的研究使用了深度学习技术,如人工神经网络(ANN) (《Voice conversion using artificial neural networks》), Wavenet (《Wavenet: A generative model for raw audio》), GAN(《Statistical parametric speech synthesis incorporating generative adversarial networks》)等。
       
图5
       在信号处理技术领域的研究也有报道,如矢量量化(《Voice con- version through vector quantization》)和频率扭曲(《Weighted frequency warping for voice conversion》)。语音转换语音信号的谱能量密度如图5所示。从图*5(b)*可以明显看出,VC信号的频谱能量具有清晰的谐波结构,并且在高频区域相对于自然信号有更多的能量。更多VC语音信号的技术描述见(《SAS: A speaker verification spoofing database containing diverse attacks》,《Voice conversion versus speaker verification: An overview》)。
       

    2.5 重放

       最简单的欺骗攻击之一是重放攻击。重放是一个预先录制的目标说话人声音的语音信号,使用录音设备捕获它,以获得对系统的欺诈访问(《Vulnerability in speaker verification-a study of technical impostor techniques》,《Speaker verification performance degra- dation against spoofing and tampering attacks》,《Detecting replay attacks from far-field recordings on speaker verification systems》)。这种攻击的声音特性(因录音设备和环境等因素)与目标扬声器的自然声音稍有不同。因此,重放是最具挑战性的检测,并有很高的可能性欺骗系统。
       
       真实的语音信号 s [ n ] s[n] s[n]可以建模为声门气流 p [ n ] p[n] p[n]和声道脉冲响应 h [ n ] h[n] h[n](《Discrete-Time Speech Signal Processing:Principles and Practice》)的卷积,即声门气流 p [ n ] p[n] p[n]和声道脉冲响应 h [ n ] h[n] h[n]的卷积。
s [ n ] = p [ n ] ∗ h [ n ] (1) s[n] = p[n]*h[n] \tag{1} s[n]=p[n]h[n](1)       另一方面,重放语音信号 r [ n ] r[n] r[n]可以建模为真实语音信号 s [ n ] s[n] s[n]与中间器件(重放和记录器件)的脉冲响应 η [ n ] η[n] η[n]与传播环境和加性噪声 N [ n ] N[n] N[n]的卷积:
r [ n ] = s [ n ] ∗ η [ n ] + N [ n ] (2) r[n] = s[n] * η[n] + N[n] \tag{2} r[n]=s[n]

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值