Mitigating Poisoning Attacks on Machine Learning Models: A Data Provenance Based Approach

目录

概要

攻击模型

部分可信数据的来源防御

完全不可信数据集的来源防御

实验评价

对毒性攻击I的有效性评估

对毒性攻击II的有效性评估

结论

概要

本文提出一种毒性检测方法:该方法使用有关训练集中数据点的起源和转换的上下文信息来识别有毒数据,从而使在线和定期重新训练的模型能够在潜在的敌对环境中使用数据源。并且,作者提出了该方法的两种变体——一种针对部分可信数据集,另一种针对完全不可信数据集。最后,作者评估了该方法和现有的方法来毒性检测方法,并显示了本文提出的方法在检出率方面的改进。

攻击模型

本文允许对手观察或获取与用于训练算法的数据相似的数据,假设攻击者无法破坏向训练系统发送数据的所有数据源,也就是说,攻击者可以修改共享某些来源签名的数据点。其中来源签名是指包含反映其沿袭的一个或多个来源特征。例如,特定的摄像机、Twitter帐户或特定的固件版本。

部分可信数据的来源防御

部分可信是指收集到的数据中的一些数据点是合法的(没有中毒),该方法的输入包括:

  • 一个监督式机器学习算法
  • 一个部分可信的训练数据集,该数据集用于训练机器学习分类器,由两部分组成——可信数据集和不可信数据集,
  • 一个安全且可信的溯源数据集,该数据集包含描述不可信训练数据集中每个数据点来源和沿袭的元数据,
  • 一个溯源特征,该特征位于溯源数据集中,能够指示有毒数据点在不可信数据集中如何聚类。

输入参数:D:所有数据点、D_{T}:可信任的数据点集合、F:用于分段的溯源特征

算法步骤:

  • 初始化空的有毒数据集 D_{poisoned}
  • 将不可信数据集 D_{U}定义为总数据集D减去可信数据集D_{T}
  • 使用溯源特征F对不可信数据D_{U}进行分段
  • 对于分段后的每个数据点和其特征(D_{i}, Sig_{i}),训练两个模型:
  • Model_{filtered}:使用除D_{i}外的不可信数据训练
  • Model_{unfiltered}:使用所有不可信数据训练
  • 比较两个模型在可信数据集D_{T}上的性能:
  • 如果排除
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值