【论文复现3】算法2——Clustered sampling based on model similarity

最新推荐文章于 2024-11-08 11:19:03 发布

原创

最新推荐文章于 2024-11-08 11:19:03 发布 · 1.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #pytorch #人工智能

该博客探讨了联邦学习中针对样本量和梯度的两种攻击策略。首先，介绍了基于样本量的算法2，通过层次聚类和权重更新来防御恶意攻击。实验表明，单纯改变数据量对梯度的影响较小。随后，讨论了直接篡改梯度的影响，结果显示这种攻击会使算法2偏离目标模型。最后，指出在局部模型的梯度计算中进行攻击无效，原因是攻击的客户端可能未被选中参与训练。

【论文代码复现2】Clustered sampling based on sample size_admin11111111的博客-优快云博客https://blog.youkuaiyun.com/admin11111111/article/details/120817883 接着上篇的来写。

一、算法2流程：

1. 根据梯度计算相似性矩阵，相似性用cosine来衡量。

2. 对相似性矩阵进行层次凝聚聚类，cluster之间的距离用ward方式衡量。

3. 根据聚类结果得到新的权重矩阵，（最大的10种类——worker数量最多，权重保持不变）

4. 剩余的类别的权重更新，得到新的权重矩阵distri_cluster作为clients被抽样的概率矩阵，抽样的clients子集的样本作为训练数据集进行训练。

注：此处权重不是模型参数，而是作为clients被抽样的概率权重。

def get_clusters_with_alg2(
    linkage_matrix: np.array, n_sampled: int, weights: np.array
):
    """Algorithm 2"""
    epsilon = int(10 ** 10)

    # associate each client to a cluster
    link_matrix_p = deepcopy(linkage_matrix)
    augmented_weights = deepcopy(weights)


    for i in range(len(link_matrix_p)):
        idx_1, idx_2 = int(link_matrix_p[i, 0]), int(link_matrix_p[i, 1])

        new_weight = np.array(

最低0.47元/天解锁文章

8 条评论

baba233 2021.11.28
哦哦，我懂了！太谢谢你了！

baba233 2021.11.22
还想问一下，这个分布我理解的是每个客户端数据的分布，图片上写的定义m个分布是什么意思啊？我的问题可能有点多，打扰到您的话非常不好意思（由于私信只能发三条信息，所以就在这留言了）[face]emoji:014.png[/face]
- bit_100回复Wang.Z.C 2022.04.18
  对，这是好久之前写的，确实不算是分布，忘记改了。有最大容量的数据存放的容器确实更清楚一些。
- Wang.Z.C回复Wang.Z.C 2022.04.14
  m个容器，每个容器内抽出来一个客户端。
- Wang.Z.C回复bit_100 2022.04.14
  感觉这个所谓的分布应该是容器比较好，这根本不是统计分布
- bit_100回复baba233 2021.11.28
  你看下我给你发的图片的上下文语境，这里的m个分布不是指的是每个客户端的数据分布，而是在采样客户端的时候各个客户端不同采样的概率分布，文中说的 With clustered sampling, the m clients can be sampled with different distributions。结合MD sampling 理解要简单一点。