目录
概要
本文提出一种毒性检测方法:该方法使用有关训练集中数据点的起源和转换的上下文信息来识别有毒数据,从而使在线和定期重新训练的模型能够在潜在的敌对环境中使用数据源。并且,作者提出了该方法的两种变体——一种针对部分可信数据集,另一种针对完全不可信数据集。最后,作者评估了该方法和现有的方法来毒性检测方法,并显示了本文提出的方法在检出率方面的改进。
攻击模型
本文允许对手观察或获取与用于训练算法的数据相似的数据,假设攻击者无法破坏向训练系统发送数据的所有数据源,也就是说,攻击者可以修改共享某些来源签名的数据点。其中来源签名是指包含反映其沿袭的一个或多个来源特征。例如,特定的摄像机、Twitter帐户或特定的固件版本。
部分可信数据的来源防御
部分可信是指收集到的数据中的一些数据点是合法的(没有中毒),该方法的输入包括:
- 一个监督式机器学习算法,
- 一个部分可信的训练数据集,该数据集用于训练机器学习分类器,由两部分组成——可信数据集和不可信数据集,
- 一个安全且可信的溯源数据集,该数据集包含描述不可信训练数据集中每个数据点来源和沿袭的元数据,
- 一个溯源特征,该特征位于溯源数据集中,能够指示有毒数据点在不可信数据集中如何聚类。
输入参数::所有数据点、
:可信任的数据点集合、
:用于分段的溯源特征
算法步骤:
- 初始化空的有毒数据集
- 将不可信数据集
定义为总数据集
减去可信数据集
- 使用溯源特征
对不可信数据
进行分段
- 对于分段后的每个数据点和其特征(
,
),训练两个模型:
:使用除
外的不可信数据训练
:使用所有不可信数据训练
- 比较两个模型在可信数据集
上的性能:
- 如果排除