Model-Reuse Attacks on Deep Learning Systems阅读笔记

本文探讨了预训练模型在机器学习系统中的广泛应用及其潜在的安全风险。作者通过构建恶意模型,展示了如何利用这些模型对系统进行有效、规避、弹性且易于实施的攻击,涉及自动驾驶、语音识别和面部验证等多个领域。研究强调了模型重用攻击的隐蔽性和难以防御性,并提供了攻击构建的详细过程。

Model-Reuse Attacks on Deep Learning Systems阅读笔记

文献背景及解决问题

现如今许多机器学习(ML)系统都是通过重用一组通常经过预先训练的原始模型来构建的(例如,特征提取),越来越多的原始模型的使用意味着简化和加速了ML系统的开发周期,但由于大多数此类模型都是由不可信的来源提供和维护的,缺乏标准化或监管会带来深远的安全影响。数据:截至2016年,超过13.7%的ML系统至少使用一个GitHub上的原始模型(预训练神经网络被广泛用于图像数据的特征提取)。

作者证明了某些恶意原始模型对ML系统的安全构成了巨大的威胁。通过构建恶意模型(对抗性模型),迫使调用系统在面对目标输入(触发器)时以一种高度可预测的方式执行错误处理。例如:自动驾驶汽车可能被误导而导致事故;视频监控可以避开非法活动;钓鱼网页可以绕过网页内容认证;基于生物特诊的认证可能被操控允许不适当的访问。

核心方法

A.Model-Based ML Systems
在这里插入图片描述一个端到端的ML系统通常由各种组件组成,这些组件可以实现不同的功能(例如,特性选择、分类和可视化),本文主要关注两个核心组件,特征提取器和分类器(或回归器)。特性提取通常是最关键、最复杂的步骤,重用基于大量训练数据或精心调优的特征提取器非常常见。所以本文着重考虑重用特征提取器的情况。
训练数据集与分类回归输入的目标集是不同的,但共享相同的特征空间(比如自然图像和医学图像)。根据目标集实例进行有监督调整:
在这里插入图片描述full-system tuning: 调整特征提取器 f 和分类器或回归器 g
partial-system tuning: 只调整分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值