联邦学习中的持续学习技术:应对灾难性遗忘
联邦学习是一个过程,分布式的设备各自拥有本地收集的数据存储,可以在不传输数据本身的情况下,共同为全局机器学习模型做出贡献。通过将数据保留在本地,联邦学习既减少了网络流量,又保护了数据隐私。
持续学习是随着新数据的出现而不断更新模型的过程。其关键在于避免“灾难性遗忘”,即基于新数据的模型更新会覆盖现有设置,导致模型在旧数据上的性能下降。
在一篇提交给今年自然语言处理经验方法会议(EMNLP)的论文中,我们结合了这两种技术,提出了一种进行持续联邦学习的新方法,其性能优于先前的方法。
防止灾难性遗忘的一种方法是让每个设备保留它已见过数据的样本。当新数据到来时,它与旧数据合并,模型在联合数据集上重新训练。
我们方法的核心在于选择保留数据样本的流程。 我们提出了两种版本:非协调版本(每个设备在本地选择自己的样本)和协调版本(样本选择由中心服务器在设备间协调)。
在实验中,我们将样本选择方法与三种先前的方法进行了比较。这些方法的相对性能取决于设备可以存储的先前样本数量。在50个和100个样本的情况下,我们的两种方法都显著优于先前的方法,但非协调方法的性能略优于协调方法。
在20个样本的情况下,我们的方法再次相对于基准方法具有显著优势,但协调版本成为了性能最佳者。在10个及更少样本的情况下,其他方法开始超越我们的方法。
基于梯度的样本选择
对于任何给定的数据样本,机器学习模型的损失函数相对于其参数设置的图像可以想象成一个景观,其中峰值代表高误差输出,低谷代表低误差输出。给定模型的当前参数设置(景观中的一个特定点),机器学习算法的目标是选择一个通往低处(即误差更低的输出)的方向。这个“下山”方向的负值被称为梯度。
选择保留样本的一种常见方法是最大化梯度多样性,这确保了样本中包含信息类型的相应多样性。由于梯度只是多维空间中的一个方向,选择梯度总和为零的样本可以最大化多样性:所有梯度指向不同的方向。
优化梯度多样性的问题可以表述为:为每个梯度分配一个系数1或0,使得所有梯度的总和尽可能接近零。同时,系数的总和应等于可用于存储样本的“内存预算”。如果设备上有存储N个样本的空间,我们希望有N个系数为1,其余为0。
然而,这是一个NP完全问题,因为它需要系统地尝试N个梯度的不同组合。我们建议放宽这个要求,使得系数的总和仍然是N,但系数本身可以是分数。这是一个计算上易于处理的问题,因为它只需要对初始猜测进行连续的细化。最后,我们选择系数最高的N个样本。
在我们的实验中,这种非协调方法是进行持续联邦学习(当N为50或更高时)性能最佳的方法:每个设备只需在本地优化梯度多样性。可以推测,只要尝试足够多的样本,本地采样就能为整个模型提供足够好的重要梯度覆盖。
然而,当N为20时,需要更仔细的样本选择,这正是我们的协调方法表现最佳的地方。
协调方法
协调方法在局部梯度求和与全局梯度求和之间交替进行。首先,每个设备找到一个局部优化,使其梯度总和尽可能接近零。然后,它将所有本地样本的聚合梯度及其计算出的系数发送到中心服务器。聚合梯度而不是单独发送它们,可以防止潜在的试图从梯度反向工程本地存储数据的攻击。
通常,局部选择的系数不会产生恰好为零的总和。中心服务器考虑来自所有设备的现有非零总和,并计算对所有总和的最小修改,以使全局总和为零。然后,它将修改后的总和作为新的非零目标发送回设备进行优化。
这个过程可以根据需要重复多次,但在我们的实验中,我们发现通常只需一次迭代就足以实现非常接近零的全局总和。在最后一次迭代之后,每个设备选择与其总和中N个最大系数相对应的数据样本。
作为我们实验的基线,我们使用了三种先前的采样策略。一种是天真的均匀采样方法,它只是简单地从设备上的所有数据中采样;另外两种使用加权采样,试图确保已见数据和新增数据之间更好的平衡。
在N=10时,随机采样方法与我们方法的性能相当,在N=5时,它们超越了我们的方法。但在实践中,分布式设备通常能够存储超过五个或十个样本。我们的论文为指导根据设备容量优化样本选择策略提供了参考。
相关出版物
- 持续联邦学习的协调重放样本选择
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
484

被折叠的 条评论
为什么被折叠?



