对抗后门攻击的神经网络验证
1. 引言
神经网络在解决诸多问题上取得了最先进的性能,在人脸识别、医疗诊断、自动驾驶汽车等安全/安保关键系统中有着广泛应用。然而,研究人员也发现了神经网络存在的多个安全问题,其中之一便是后门攻击。
常见的攻击神经网络的方式有多种:
- 对抗攻击 :对给定输入施加小的扰动(如修改图像输入中的几个像素),导致神经网络产生错误输出。为减轻对抗攻击,人们提出了鲁棒训练、运行时对抗样本检测和鲁棒性认证等方法。
- 后门攻击 :在神经网络中嵌入“后门”,使网络在正常输入时正常工作,但在出现后门触发器时输出特定的目标输出。例如,在图像分类网络中,包含后门触发器的图像很可能会被分配攻击者选择的特定目标标签。后门触发器可以通过污染训练集或直接修改训练好的神经网络来嵌入。
现有的防御方法大多基于启发式方法检测神经网络是否被“植入后门”,而能证明后门不存在的工作较少,基于随机平滑的方法会显著降低神经网络的性能。本文提出了一种结合统计采样和抽象解释的方法,以一定的成功率验证给定神经网络是否无后门。若验证失败,还会开发基于优化的方法来生成具体的后门触发器。
2. 问题定义
本文主要聚焦于图像领域的图像分类神经网络,不过方法并不局限于此。
2.1 图像表示
图像通常可表示为三维数组 (c, h, w),其中 c 是通道数(灰度图像为 1,彩色图像为 3),h 是高度(行数),w 是宽度(列数)。数组中的每个元素是一个字节值(0 - 255),表示图像的一个特征。在用于神经网络分类任务时,图像特征值
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



