Mitigating Poisoning Attacks on Machine Learning Models: A Data Provenance Based Approach

Soungkayou

于 2024-12-14 17:51:44 发布

阅读量1k

点赞数 8

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_64764193/article/details/144471532

版权

目录

部分可信数据的来源防御

完全不可信数据集的来源防御

对毒性攻击I的有效性评估

对毒性攻击II的有效性评估

概要

本文提出一种毒性检测方法：该方法使用有关训练集中数据点的起源和转换的上下文信息来识别有毒数据，从而使在线和定期重新训练的模型能够在潜在的敌对环境中使用数据源。并且，作者提出了该方法的两种变体——一种针对部分可信数据集，另一种针对完全不可信数据集。最后，作者评估了该方法和现有的方法来毒性检测方法，并显示了本文提出的方法在检出率方面的改进。

攻击模型

本文允许对手观察或获取与用于训练算法的数据相似的数据，假设攻击者无法破坏向训练系统发送数据的所有数据源，也就是说，攻击者可以修改共享某些来源签名的数据点。其中来源签名是指包含反映其沿袭的一个或多个来源特征。例如，特定的摄像机、Twitter帐户或特定的固件版本。

部分可信数据的来源防御

部分可信是指收集到的数据中的一些数据点是合法的（没有中毒），该方法的输入包括：

一个监督式机器学习算法，
一个部分可信的训练数据集，该数据集用于训练机器学习分类器，由两部分组成——可信数据集和不可信数据集，
一个安全且可信的溯源数据集，该数据集包含描述不可信训练数据集中每个数据点来源和沿袭的元数据，
一个溯源特征，该特征位于溯源数据集中，能够指示有毒数据点在不可信数据集中如何聚类。

输入参数： $D$ ：所有数据点、 $D_{T}$ ：可信任的数据点集合、 $F$ ：用于分段的溯源特征

算法步骤：

初始化空的有毒数据集 $D_{poisoned}$
将不可信数据集 $D_{U}$ 定义为总数据集 $D$ 减去可信数据集 $D_{T}$
使用溯源特征 $F$ 对不可信数据 $D_{U}$ 进行分段
对于分段后的每个数据点和其特征( $D_{i}$ , $Sig_{i}$ )，训练两个模型：
$Model_{filtered}$ ：使用除 $D_{i}$ 外的不可信数据训练
$Model_{unfiltered}$ ：使用所有不可信数据训练
比较两个模型在可信数据集 $D_{T}$ 上的性能：
如果排除

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。