对抗机器学习:攻击、防御与性能分析
1. 重建分类器的现实性与测试时间逃避攻击
在现实世界中,获取足够的数据来重建分类器的场景比想象中更现实。Tramer 等人(2016)表明,通过相对适度数量的查询(可能多达 10000 次或更多),就可以学习到一个能紧密模仿黑盒机器学习服务决策的分类器。一旦黑盒被逆向工程破解,攻击者就无需再订阅该机器学习服务。而且,这种逆向工程还能通过提供最初未知的分类器知识来实现测试时间逃避(TTE)攻击。
TTE 攻击会对分类执行阶段使用的测试样本进行修改,从而改变分类器的决策。TTE 攻击可以是有针对性的,也可以是无差别攻击,但如果是有针对性的攻击则更具策略性,即扰动源类别样本,使其被分类到特定的目标类别。为确保攻击成功,攻击者需要知道被攻击模式的真实类别标签。制造 TTE 攻击需要不断扰动源模式,直到它从一个类别的决策区域跨越决策边界进入另一个(如目标)类别的区域。这种攻击会产生对抗性示例,可能导致自动驾驶汽车无法识别路标、自动化系统错误地将民用车辆作为目标,或者授予对建筑物、机器或受限信息的图像或音频认证访问权限。
TTE 攻击可以针对现实世界中的物理对象(如改变路标、伪装车辆或调暗房间以增加识别感兴趣对象的难度),也可以对已经数字化捕获的数据对象(如数字图像、语音文件)或原生数字对象(如电子邮件、文档或计算机程序)进行更改。如果 TTE 攻击是由逆向工程攻击实现的,即学习一个替代分类器(而不是假设 TTE 攻击者拥有实际分类器的完美知识),那么 TTE 攻击的可转移性是一个重要属性:对模式的扰动在替代分类器的决策中引起有针对性或无差别变化,是否也会在实际分类器的决策中引起这种变化?回答这些问题取决于攻击者的知识,攻击者可能知道以下信息:
超级会员免费看
订阅专栏 解锁全文
7448

被折叠的 条评论
为什么被折叠?



