【论文代码复现2】Clustered sampling based on sample size

最新推荐文章于 2025-10-12 14:38:07 发布

原创

最新推荐文章于 2025-10-12 14:38:07 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络 #机器学习

这篇博客探讨了联邦学习中ClusteredSampling算法的实现及其潜在的安全风险。作者指出，原始代码实现可能导致恶意攻击者通过虚假报告数据量来影响抽样概率，从而破坏系统。为了解决这个问题，提出了两种算法：一种分配统一权重，另一种考虑梯度相似性。然而，这些方法都面临客户端数据量验证的隐私挑战。博客还提到了可能的攻击策略，并暗示将引入基于梯度相似性的权重调整策略以增强安全性。

【论文代码复现】Clustered Sampling: Low-Variance and Improved Representativity for Clients Selection in Fede_admin11111111的博客-优快云博客https://blog.youkuaiyun.com/admin11111111/article/details/120499243上一篇文章最后留了一个疑惑，经过检验确实是有问题的，那样写逻辑是错误的。并不符合论文中将所有clients都采样的说法。然后在更改了epsilon之后就可以正常运行了，但是给出的代码中直接是默认所有clients的样本量都相同，所以分配的权重也都相同。

算法1实现：

具体实现就是将100个clients按照权重大小从大到小排序再分成k=10组，然后计算根据权重大小计算每组中client的抽样概率。因为算法1中给的client的样本数量都相同，所以权重相同，各个clients抽样概率也相同。

于是这就有漏洞了——如果有恶意攻击者命名数据量很小，却说自己数据量很大则会导致系统崩溃。也就是数据量大，则抽样概率大幅增加，计算梯度时就会受到影响。

攻击方式

具体攻

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。