概括
提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
联邦学习主要面对隐私泄露和聚合服务器单点故障,攻击者可以使用中间模型推断用户隐私,甚至操纵聚合服务器返回不正确的全局模型,面对这些安全威胁本文将G-VCFL作为一种分组可验证的链式隐私保护联邦学习方案提出。
具体地说,首先使用分组链学习机制来保证用户的隐私,然后提出一种可验证的安全聚合协议来保证全局模型的可验证性。G-VCFL不需要任何复杂的密码原语,也不引入噪声,但通过使用轻量级伪随机发生器实现了可验证的隐私保护联邦学习。
提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
介绍
提示:这里可以添加本文要记录的大概内容:
用户的数据可能包含隐私信息。例如,在医疗诊断中,患者数据是高度隐私的,不能直接与第三方共享。此外,收集大量数据成为一个主要挑战,特别是在网络资源有限的情况下。所有这些问题使得集中式机器学习极具挑战性。
联合学习由多轮培训组成。在每一轮训练中,聚合服务器基于规则将全局模型分发给所选择的用户。然后,用户在其本地数据集上训练本地模型并将其上载到服务器,并且聚合服务器执行模型聚合以获得新的全局模型。
虽然Federated Learning会在本机保留敏感的训练数据,但它仍会面临安全性风险。图1说明了对联邦学习的可能攻击威胁。具体来说,联邦学习面临着来自用户和聚合服务器的威胁。
对于用户而言,最近的研究表明,在用户和服务器之间共享中间模型更新会导致各种隐私风险,例如成员推理攻击和各方输入的提取。
对于聚合服务器,最近的研究也表明,聚合服务器面临单点故障风险。例如,在对手危害服务器后,对手可以使其返回不正确的聚合结果,这会误导甚至破坏机器学习训练。
同时,“懒惰的”聚合服务器可以返回简单的、不太准确的模型以减少其计算成本。因此,保护用户隐私和防止聚合服务器的单点故障尤为重要。“
针对这些问题提出了差分隐私,安全多方计算等各种技术,但是都有各自的缺陷,联合学习由多轮培训组成。
在每一轮训练中,聚合服务器基于规则将全局模型分发给所选择的用户。然后,用户在其本地数据集上训练本地模型并将其上载到服务器,并且聚合服务器执行模型聚合以获得新的全局模型。
虽然Federated Learning会在本机保留敏感的训练数据,但它仍会面临安全性风险。图1说明了对联邦学习的可能攻击威胁。具体来说,联邦学习面临着来自用户和聚合服务器的威胁。对于用户而言,最近的研究表明,在用户和服务器之间共享中间模型更新会导致各种隐私风险,例如成员推理攻击和各方输入的提取。对于聚合服务器,最近的研究[也表明,聚合服务器面临单点故障风险。例如,在对手危害服务器后,对手可以使其返回不正确的聚合结果,这会误导甚至破坏机器学习训练。同时,“懒惰的”聚合服务器可以返回简单的、不太准确的模型以减少其计算成本。因此,保护用户隐私和防止聚合服务器的单点故障尤为重要。“为了实现这一目标,我们需要采取有效和安全的方法。显然,上述解决方案在解决该问题方面具有局限性。为此,我们需要回答以下问题:构建一个联邦学习解决方案,可以通过计算轻量级的方法验证聚合结果的正确性,同时保护用户的隐私。
为实现这一目标,遵循三大关键研究思路:
1)最小化服务器上可见的用户数量,
2)避免使用复杂的加密原语,
3)最小化聚合次数。
根据这三点,提出了一种分组可验证链式联邦学习方案,称为G-VCFL。
具体来说,
1)为了减少聚合服务器上可见的用户数量,G-VCFL将用户分成不同的用户组,每个用户组在每一轮训练中只需要与聚合服务器交互一次,从而服务器将每个用户组视为一个用户;
2)为了减少复杂加密原语的使用,G-VCFL采用链式学习结构,每个用户的信息由前一个用户保护;
3)为了最小化聚合次数,G-VCFL在模型和标签聚合的训练协议中使用双重聚合方法,以满足模型训练和验证的要求。
更具体地说,G-VCFL使用类似于Chain-PPFL 的链式训练结构来完成训