11、基于深度学习的语音识别系统对抗攻击解析

最新推荐文章于 2025-12-15 11:45:10 发布

5f4d3s2a1q

最新推荐文章于 2025-12-15 11:45:10 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏： AI赋能网络安全新范式文章标签：深度学习语音识别对抗样本

本文链接：https://blog.youkuaiyun.com/5f4d3s2a1q/article/details/152356992

AI赋能网络安全新范式专栏收录该内容

16 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于深度学习的语音识别系统对抗攻击解析

1. 引言

随着深度学习技术的飞速发展，自动语音识别（ASR）应用已取得了极高的准确率。语音转文本 API 服务使开发者能在各类产品中嵌入灵活的语音功能，智能音箱和虚拟语音助手也变得十分流行。我们将所有支持语音的集中控制设备、智能手机或平板电脑统称为智能语音控制（IVC）设备，在日常生活中，各种智能家居设备甚至自动驾驶都能通过语音命令借助 ASR 服务进行控制。

然而，研究表明，经过恶意甚至轻微处理的样本（如对抗样本，AEs）会使深度神经网络（DNN）模型出现意外的错误行为。一般来说，AE 是通过在正常样本上添加对抗扰动生成的，能在人类毫无察觉的情况下欺骗机器学习（ML）系统。由于 IVC 设备始终处于“监听”状态，AEs 会对其构成严重威胁。例如，攻击者将语音命令嵌入常见音频信号（如音乐、水声等）生成 AEs，播放这些 AEs 时人类听不到命令，但可攻击 IVC 设备。

攻击 ASR 系统存在诸多挑战：
1. 扰动不能被 IVC 设备过滤掉，因为大多数 IVC 设备会去除背景音以提高识别准确率，轻微扰动不能被当作背景噪音过滤。
2. AEs 需在现实物理环境中发挥作用，该环境对样本的影响更为复杂，如电子噪音等。
3. 恶意命令不能被普通用户察觉，因此需谨慎添加扰动，使嵌入的命令不引人注意。
4. 基于替代模型和可迁移性生成 AEs 是攻击黑盒模型的主要方法，但模拟大型复杂的黑盒模型极为困难，常见白盒模型的 AEs 也难以迁移到复杂黑盒模型。

为实现实际的对抗攻击，我们的方法分为以下三个步骤：
- “WAV-to-API”白盒攻击：分析 Kaldi 的 ASR 算法，以其