论文:Q. Liu et al. 2018. Survey on Security Threats and Defensive Techniques of Machine Learning: A Data Driven View. IEEE ACCESS.
目录
差分隐私(differential privacy, DP)
同态加密(homomorphic encryption, HE)
机器学习的防御技术:
模型的安全性测试通常用假设法:对分类器漏洞引入对抗性假设,然后提出保护对策。
安全性评估模型
通常有2种防御机制:主动防御、被动防御。
二者的主要区别:
(1)主体不同,主动防御中攻击和防御都是由模型设计者完成的,被动防御则是外部攻击
(2)目的不同,被动防御是真攻击(恶性)、主动防御是自我体检(良性)
主动防御
(1)选择对抗模型
(2)启动渗透测试
(3)评估攻击影响
(4)实施防御策略
被动防御
(1)攻击者会通过分析目标分类器找到合适的攻击方法
(2)模型的设计者会对新输入的数据进行分析并处理攻击下生成的结果、然后使用一些防御机制,比如重新收集数据、引入新的特征来更新分类器
(3)攻击者和模型设计者的行为不断竞争从而加强模型的防御性
安全性评估
对抗数据会导致非稳态分布,因而可以用于评估模型安全性以及是否存在对抗数据
(1)根据目标、模型了解度、攻击者能力等前述攻击条件选择合适的对抗模型
(2)重新定义数据集p(Y), p(A|Y) and p(X|Y, A):
Y∈{L, M}:类标签,L:良性,M:恶意;
L∈{F, T}:布尔随机变量,T:改过,F:没改过。
(3)对重新定义前的数据构建为训练集TR、测试集TS,通过经典重采样技术构建k个数据子集(cross-validation, bagging, ...)
(4)用TR和TS集模拟测试攻击环境下的模型表现
训练阶段的防御对策
两大对策:保证训练数据的纯洁性/提高模型鲁棒性
数据净化
识别对抗样本、分离、删除
eg. Reject on Negative