基于深度学习的语音识别系统对抗攻击解析
1. 引言
随着深度学习技术的飞速发展,自动语音识别(ASR)应用已取得了极高的准确率。语音转文本 API 服务使开发者能在各类产品中嵌入灵活的语音功能,智能音箱和虚拟语音助手也变得十分流行。我们将所有支持语音的集中控制设备、智能手机或平板电脑统称为智能语音控制(IVC)设备,在日常生活中,各种智能家居设备甚至自动驾驶都能通过语音命令借助 ASR 服务进行控制。
然而,研究表明,经过恶意甚至轻微处理的样本(如对抗样本,AEs)会使深度神经网络(DNN)模型出现意外的错误行为。一般来说,AE 是通过在正常样本上添加对抗扰动生成的,能在人类毫无察觉的情况下欺骗机器学习(ML)系统。由于 IVC 设备始终处于“监听”状态,AEs 会对其构成严重威胁。例如,攻击者将语音命令嵌入常见音频信号(如音乐、水声等)生成 AEs,播放这些 AEs 时人类听不到命令,但可攻击 IVC 设备。
攻击 ASR 系统存在诸多挑战:
1. 扰动不能被 IVC 设备过滤掉,因为大多数 IVC 设备会去除背景音以提高识别准确率,轻微扰动不能被当作背景噪音过滤。
2. AEs 需在现实物理环境中发挥作用,该环境对样本的影响更为复杂,如电子噪音等。
3. 恶意命令不能被普通用户察觉,因此需谨慎添加扰动,使嵌入的命令不引人注意。
4. 基于替代模型和可迁移性生成 AEs 是攻击黑盒模型的主要方法,但模拟大型复杂的黑盒模型极为困难,常见白盒模型的 AEs 也难以迁移到复杂黑盒模型。
为实现实际的对抗攻击,我们的方法分为以下三个步骤:
- “WAV-to-API”白盒攻击:分析 Kaldi 的 ASR 算法,以其
超级会员免费看
订阅专栏 解锁全文
2404

被折叠的 条评论
为什么被折叠?



