剖析机器学习中的成员推理风险
1. 基于影子训练的成员推理攻击模型
1.1 影子训练方法
为了训练用于成员推理的攻击模型,可采用影子训练方法。具体操作如下:
1. 攻击者训练多个影子模型,以模仿目标机器学习模型的行为。这些影子模型在影子数据集(S)上进行训练,该数据集与目标模型的训练数据Ψ具有相同的分布,且假设影子数据与目标模型的训练数据不相交,即 (S \sim \Psi \cap D \sim \Psi = \varnothing)。若攻击者无法获取影子数据,也可生成合成数据。
2. 影子模型训练完成后,在各自的训练数据集和单独的测试数据集上获取预测输出向量。
3. 将影子训练集的预测输出向量标记为“成员”,影子测试集的输出标记为“非成员”,这些数据构成基于神经网络的二元分类器或成员推理攻击模型的训练集。
4. 为每个类别生成一个攻击模型,用于推断成员身份。执行成员推理攻击(MIA)时,攻击者向目标机器学习模型查询数据记录,获取预测置信度得分向量,然后将其与真实标签一起传递给攻击模型,以推断成员状态。
1.2 置信度得分基于的成员推理
此类攻击模型根据目标机器学习模型输出的置信度得分向量计算的阈值来确定成员身份。可从置信度得分向量和给定实例的真实标签中得出多种指标,如最大置信度得分、熵或损失。
- 预测置信度 :目标机器学习模型通过最小化训练数据的预测损失进行训练,因此训练集中数据实例的预测置信度应高于非训练集中数据实例的预测置信度。若输入示例的预测置信度高于给定阈值,则推断其为成员。攻击模型可总结为:(I_{conf}(f, (x, y)) = 1{f(x) y \
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



