《Replay attack detection with complementary high-resolution information using end-to-end DNN for the ASVspoof 2019 Challenge》论文学习
文章目录
摘要
在本研究中,我们专注于利用互补的高分辨率声谱图,将端到端 DNN 替代手工提取声学特征的过程。
由于音频设备的进步,基于传统知识的重放语音的典型特征在未知的重放配置中改变或减少。
因此,使用传统的基于知识的方法检测欺骗语音变得越来越困难。
为了检测重播语音中隐藏的特征,我们直接将声谱图输入到端到端的 DNN 中,无需基于知识的干预。
本研究中涉及的探索与现有的基于谱图的系统的区别在于两个方面:互补信息和高分辨率。
研究了具有不同信息的谱图,结果表明,相位信息等附加信息可以相互补充。
在使用高分辨率声谱图时,假设真实语音和重放语音之间的区别存在于细节中。
此外,为了验证其他特征是否与谱图互补,我们还研究了原始波形和基于 i 向量的系统。
在 ASVspoof 2019 物理访问挑战上进行的实验显示了良好的结果,其中评价集的 t-DCF 和等错误率分别为 0.0570 和 2.45% 。
关键词 —— 重放检测,反欺骗,说话人识别,表征学习,深层神经网络
1 介绍
自动扬声器验证( ASV )系统已广泛应用于各个行业。
然而,欺骗攻击对 ASV 系统的可靠性构成了威胁,需要对欺骗干扰检测系统进行研究。
顺应这一趋势,自动说话人验证欺骗干扰与对策( ASVspoof )倡议为后续研究、研究和比较欺骗干扰检测系统提供了一个平台。
ASVspoof Challenge 已经涵盖了各种欺骗攻击,如 2015 年的语音合成( TTS )和语音转换( VC ),以及 2017 年的重放攻击(《Asvspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge》,《The asvspoof 2017 challenge: Assessing the limits of replay spoofing attack detection》)。
ASVspoof2019 挑战处理 TTS 和 VC 技术的进步,作为逻辑使用和重放攻击的控制模拟,物理使用(《Asvspoof 2019: Future horizons in spoofed and fake audio detection》) VC 和 TTS 需要专业知识和专业设备。
相比之下,重放攻击不需要任何专业知识或专门设备。
它可以简单地通过使用录音设备获取目标说话人的声音,然后使用回放设备重放。
在这个过程中,一个不同的组合回放和回放设备与背景环境可以使用,这被称为“重放配置”。
尽管攻击方案简单,但重放攻击已被证明是一种欺骗 ASV 系统的有效方法。
本文主要研究重放检测任务。
通过对以往的重放检测研究(包括过去的 ASVspoof 比赛)的调查,我们发现很多研究都集中在寻找鉴别特征来改进欺骗检测(《Experimental analysis of features for replay attack detection-results on the asvspoof 2017 challenge》,《Independent modelling of high and low energy speech frames for spoofing detection》,《End-to-end audio replay attack detection using deep convolutional networks with attention》,《Spoofing speech detection using high dimensional magnitude and phase features: The ntu approach for asvspoof 2015 challenge》)。
这些特征包括常 Q 倒谱系数( CQCC )、逆 Mel -滤波倒谱系数( IMFCC )、线性预测倒谱系数( LPCC )和群延迟( GD )- grams 。
这些特征集中于表示语音的特征,在传统的重放检测知识中,这些特征被认为是有区别的。
例如, IMFCC 专注于高频段,利用重放语音的高频段经常被扭曲的知识。
然而,由于录音和回放设备的进步,重播语音中的失真减少了。
我们假设,由于这一现象,传统特征的辨别能力将下降。
为了减少重放语音的失真,我们探索了一种最小化传统知识干预的方法,并充分利用基于 DNN 的数据驱动方法。
我们在本研究中主要关注的是提供适当的未处理的、高分辨率的互补信息,以促进端到端的 DNN 。
该方法不仅结合一般谱图的幅值信息,还结合相位信息和功率谱密度( PSD )等互补信息。
我们探索相位信息,该信息已被证明在重放攻击检测中是有效的(《End-to-end audio replay attack detection using deep convolutional networks with attention》,《Relative phase shift features for replay spoof detection system》,《Multiple phase information combination for replay attacks detection》,《Detection of replay-spoofing attacks using frequency modulation features》), PSD 集中于功率信号在频率上的分布,而不是集

论文介绍了在ASVspoof 2019 Challenge中,通过端到端深度学习直接处理高分辨率声谱图,以检测重放攻击。研究发现互补信息和高分辨率对于区分真实语音至关重要,且实验结果显示使用2048 FFT箱的系统性能显著优于传统方法。
最低0.47元/天 解锁文章
1280

被折叠的 条评论
为什么被折叠?



