【联邦学习实战】基于同态加密和差分隐私混合加密机制的FedAvg

原创

已于 2024-04-12 21:13:37 修改 · 置顶 · 1.8w 阅读

109

325 ·

CC 4.0 BY-SA版权

文章标签：

#同态加密 #pytorch #深度学习 #差分隐私 #联邦学习

于 2022-06-13 08:00:00 首次发布

本文介绍了如何在PyTorch实现的FedAvg基础上，融合Paillier同态加密和差分隐私，实现实时保护参与方隐私的联邦学习。通过对比不同隐私保护机制对模型性能的影响，展示了混合加密机制的有效性。

联邦学习实战——基于同态加密和差分隐私混合加密机制的FedAvg

前言
1. FedAvg
2. 差分隐私
3. Paillier同态加密算法
- 3.1 FedAvg应用
- 3.2 性能测试
4. 项目总结
参考链接

前言

好久都没更新联邦学习相关内容了，这也是我更新这篇我认为非常硬核的文章的原因，这也算是实现了我在学习联邦学习半年以来的一个目标，基于混合加密机制实现联邦学习任务，这次任务使用的框架是FedAvg，在github上非常热门的联邦学习模拟实现方案，FedAvg的代码还是非常好理解的，本文的结构将主要分为三个部分，第一部分是对FedAvg代码的讲解和修改，第二部分将差分隐私机制加入到FedAvg中，包括高斯机制和拉普拉斯机制，第三部分将同态加密算法Paillier加入到第二部分中，实现基于同态加密和差分隐私混合加密机制的FedAvg，话不多说，就让我们开始吧！

首先把项目的代码链接附上（请为我点亮一颗Star！）

平台	链接
Github	https://github.com/heroding77/fedavg_encrypt
Gitee	https://gitee.com/heroding77/fedavg_encrypt

1. FedAvg

联邦学习有两种更新方式，对服务器端，一种是共享梯度方式，一种是共享模型参数。共享模型参数是做了几轮梯度下降，针对共享梯度，它的一大优势是通信代价会低；同时，对整个梯度信息的保护也会更好，因此本次联邦学习实战的内容也是基于共享参数形式实现的。本次实战使用的FedAvg是github上非常热门的联邦学习实现方案，它模拟了多个参与方进行联邦学习的场景，并且支持Non-IID和独立同分布数据集，代码逻辑十分清晰，对于联邦学习初学者入门再适合不过了。
在这里插入图片描述
FedAvg实现的是联邦学习场景下的手写数字识别模型的训练，它的结构如下图所示，包括数据集，模型，参与方和服务器端代码，以及数据集导入的代码，除了TensorFlow版本，它还包括PyTorch版本，更便于支持gpu运行代码，本文介绍的代码部分也是基于PyTorch实现的。下面就对各个部分进行简单的介绍。

1.1 getData.py

getData.py文件是对MNIST数据集的数据集提取和预处理，获得训练数据集和测试数据集，MNIST数据集的数据格式为-ubyte.gz，因此需要编写函数对图片数据进行提取，如下所示：

def extract_images(filename):
    """Extract the images into a 4D uint8 numpy array [index, y, x, depth]."""
    print('Extracting', filename)
    with gzip.open(filename) as bytestream:
        magic = _read32(bytestream)
        if magic != 2051:
            raise ValueError(
                    'Invalid magic number %d in MNIST image file: %s' %
                    (magic, filename))
        num_images = _read32(bytestream)
        rows = _read32(bytestream)
        cols = _read32(bytestream)
        buf = bytestream.read(rows * cols * num_images)
        data = np.frombuffer(buf, dtype=np.uint8)
        data = data.reshape(num_images, rows, cols, 1)
        return data

本质上是将比特流数据转换为[index, y, x, depth]维度的数组形式，index为下标，y和x分别表示每张图像行列像素点数目，depth是图像的通道，对于MNIST黑白图片，通道为1。接着编写图片标签提取函数，将标签提取出并转为one-hot形式，便于模型训练时计算损失函数并反向传播，代码如下：

# 标签one-hot编码
def dense_to_one_hot(labels_dense, num_classes=10):
    """Convert class labels from scalars to one-hot vectors."""
    num_labels = labels_dense.shape[0]
    index_offset = np.arange(num_labels) * num_classes
    labels_one_hot = np.zeros((num_labels, num_classes))
    labels_one_hot.flat[index_offset + labels_dense.ravel()] = 1
    return labels_one_hot

# 提取标签
def extract_labels(filename):
    """Extract the labels into a 1D uint8 numpy array [index]."""
    print('Extracting', filename)
    with gzip.open(filename) as bytestream:
        magic = _read32(bytestream)
        if magic != 2049:
            raise ValueError(
                    'Invalid magic number %d in MNIST label file: %s' %
                    (magic, filename))
        num_items = _read32(bytestream)
        buf = bytestream.read(num_items)
        labels = np.frombuffer(buf, dtype=np.uint8)
        return dense_to_one_hot(labels)

图片和标签信息提取完成后，多次assert以验证提取图片过程没有出现问题。接着将图片展平，即每张图片28 * 28被展平为784 * 1，这里的目的是用于全连接神经网络的使用，如果只是用卷积神经网络，大可不必将其展平（在模型部分还要复原回去）。紧接着就是对数据标准化处理，如果不进行这一步，模型训练的结果可能惨不忍睹（比如预测所有图像都是7），这是由于发生了梯度爆炸现象。标准化处理后是两个数据处理方式：IID和Non-IID，熟悉联邦学习的读者应该了解这个概念，这也是联邦学习面临的一个巨大问题——数据非独立同分布。
在传统应用场景中，数据存储在中心，ML model 可以获取所有数据的整体信息，但是在联邦学习中，由于数据仅存储在本地，导致数据之间分布的不一致性，例如，美国西海岸针叶林茂盛，东海岸阔叶林分布广泛，又因为用户之间喜好和生活习惯不同，因此产生了数据分布的不一致性; 另一方面，以家庭或亲属关系的群体之间会相互影响，产生了数据分布的不独立性，以FedAvg中MNIST为例，Non-IID的数据应该是这样表现的：参与方1只有手写数字1，参与方2只有手写数字2，以此类推。在Non-IID数据场景下，模型训练会异常缓慢，效率很低，这将在之后的实验所有介绍。
FedAvg提供了IID和Non-IID两种数据处理形式，帮助用户理解实际应用场景下联邦学习的过程，Non-IID数据就是不对数据进行操作，IID数据就是将所有数据打乱，这样各个参与方数据的分布就满足独立同分布了，代码如下：

class GetDataSet(object):
    def __init__(self, dataSetName, isIID):
        self.name = dataSetName
        self.train_data = None
        self.train_label = None
        self.train_data_size = None
        self.test_data = None
        self.test_label = None
        self.test_data_size = None

        self._index_in_train_epoch = 0

        if self.name == 'mnist':
            self.mnistDataSetConstruct(isIID)
        else:
            pass


    def mnistDataSetConstruct(self, isIID):
        data_dir = r'./data/MNIST'
        # 选定图片路径
        train_images_path = os.path.join(data_dir, 'train-images-idx3-ubyte.gz')
        train_labels_path = os.path.join(data_dir, 'train-labels-idx1-ubyte.gz')
        test_images_path = os.path.join(data_dir, 't10k-images-idx3-ubyte.gz')
        test_labels_path = os.path.join(data_dir, 't10k-labels-idx1-ubyte.gz')
        # 从.gz中提取图片
        train_images = extract_images(train_images_path)
        train_labels = extract_labels(train_labels_path)
        test_images = extract_images(test_images_path)
        test_labels = extract_labels(test_labels_path)

        assert train_images.shape[0] == train_labels.shape[0]
        assert test_images.shape[0] == test_labels.shape[0]

        self.train_data_size = train_images.shape[0]
        self.test_data_size = test_images.shape[0]

        # mnist黑白图片通道为1
        assert train_images.shape[3] == 1
        assert test_images.shape[3] == 1
        # 图片展平
        train_images = train_images.reshape(train_images.shape[0], train_images.shape[1] * train_images.shape[2])
        test_images = test_images.reshape(test_images.shape[0], test_images.shape[1] * test_images.shape[2])
        
        # 标准化处理
        train_images = train_images.astype(np.float32)
        train_images = np.multiply(train_images, 1.0 / 255.0)
        test_images = test_images.astype(np.float32)
        test_images = np.multiply(test_images, 1.0 / 255.0)

        # 是否独立同分布
        if isIID:
            # 打乱顺序
            order = np.arange(self.train_data_size)
            np.random.shuffle(order)
            self.train_data = train_images[order]
            self.train_label = train_labels[order]
        else:
            # 按照0——9顺序排列
            labels = np.argmax(train_labels, axis=1)
            order = np.argsort(labels)
            self.train_data = train_images[order]
            self.train_label = train_labels[order]

        self.test_data = test_images
        self.test_label = test_labels

1.2 Models.py

在Models.py文件中，定义了执行任务所使用的模型，这里提供了两种模型，简单全连接层模型和简单卷积神经网络模型，每个模型都继承了torch的nn.Module，表明是神经网络模型，每个模型类中都定义了__init__(self)和forward()两个函数，初始化函数中定义了每个模型的组件，比如简单全连接层模型中定义了三个卷积模块，两个池化模块，两个线性模块，并在forward()函数中组装起来。代码如下：

import torch
import torch.nn as nn
import torch.nn.functional as F

'''
简单全连接模型
'''
class Mnist_2NN(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(784, 200)
        self.fc2 = nn.Linear(200, 200)
        self.fc3 = nn.Linear(200, 10)

    def forward(self, inputs):
        tensor = F.relu(self.fc1(inputs))
        tensor = F.relu(self.fc2(tensor))
        tensor = self.fc3(tensor)
        return tensor

'''
简单卷积神经网络模型
'''
class Mnist_CNN(nn.Module):
    def __init__(self):
        super().__init__()
        # 定义每一层模型
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, stride=1, padding=0)
        self.pool1 = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)
        self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=0)
        self.pool2 = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)
        self.conv3 = nn.Conv2d(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=0)
        self.fc1 = nn.Linear(3*3*64, 64)
        self.fc2 = nn.Linear(64, 10)

    def forward(self, inputs):
        # 构造模型
        tensor = inputs.view(-1, 1, 28, 28)
        tensor = F.relu(self.conv1(tensor))
        tensor = self.pool1(tensor)
        tensor = F.relu(self.conv2(tensor

最低0.47元/天解锁文章

203 条评论

HCgamer 2024.11.05
老师好，提个问题，在同态加密中，各个客户端用的都是同一套公钥进行加密，而后服务器执行密文下的avg，各个客户端拿到avg后的参数再用私钥解密。这里的问题是服务端可以随意用私钥解密了呀

HCgamer 2024.11.05
老师好，提个问题，在同态加密中，各个客户端用的都是同一套公钥进行加密，而后服务器执行密文下的avg，各个客户端拿到avg后的参数再用私钥解密。这里的问题是服务端可以随意用私钥解密了呀
- HERODING77回复HCgamer 2024.11.05
  对的，所以需要一个可信的服务端或者一个第三方监管

HCgamer 2024.11.05
提个问题，噪声sigma的大小是如何映射到隐私预算的？
- HCgamer回复HERODING77 2024.11.05
  感谢老师回复，如果是第三方来分配公钥私钥，服务器不拥有私钥，那只要客户端有一个想干坏事就可以从服务端解密所有人的数据了，那感觉还需要要求所有客户端都是好人
- HERODING77回复HCgamer 2024.11.05
  所以服务端一定要是可信的，或者由第三方监管
- HCgamer回复HERODING77 2024.11.05
  老师您好，再提个问题，在同态加密中，各个客户端用的都是同一套公钥进行加密，而后服务器执行密文下的avg，各个客户端拿到avg后的参数再用私钥解密。那这里的问题是服务端可以随意用私钥解密了呀，那感觉同态加密在实际上也很难实现吧
- HERODING77回复HCgamer 2024.11.05
  这是差分隐私实现的，你可以多了解相关的知识。

黑糖波波要加糖 2024.06.01
您好，我这里运行server.py会有报错，显示 RuntimeError: 1D target tensor expected, multi-target not supported，是损失函数的参数维度有问题吗，请问您知道要怎么解决吗？
- 黑糖波波要加糖回复HERODING77 2024.06.01
  我是直接git clone下来跑的fedavg，没有任何修改
- HERODING77回复黑糖波波要加糖 2024.06.01
  你是修改代码加上自己的应用场景吗？

小冬很懵逼 2024.04.26
我想问一下，为什么每运行以此加密服务端，所需要的时间都不一样啊，6分钟，30分钟，甚至第一轮还要一小时啊，要哭了
- S761回复小冬很懵逼 2024.11.27
  请问改成功了嘛
- 小冬很懵逼回复HERODING77 2024.05.08
  好的
- HERODING77回复小冬很懵逼 2024.05.08
  客户端不是加密状态的，理论上是在客户端解密，我的实现是模拟多客户端，所以为了节省计算选择在服务端解密了，我在文中有说明
- 小冬很懵逼回复HERODING77 2024.05.08
  博主我想问一下，客户端接受公钥和加密的初始化全局参数，服务端将全局参数加密后传给客户端，客户端在加密状态下进行本地更新吗
- HERODING77回复小冬很懵逼 2024.04.27
  你可以试试
- 小冬很懵逼回复HERODING77 2024.04.27
  可以改为GPU吗
- HERODING77回复小冬很懵逼 2024.04.27
  是的
- 小冬很懵逼回复HERODING77 2024.04.27
  你好，sever-encrypt运行环境是CPU吗
- 小冬很懵逼回复HERODING77 2024.04.26
  好的
- HERODING77回复小冬很懵逼 2024.04.26
  毕竟每次加密都不一样，解密花费的时间也不同

tai_iii 2024.04.22
我想问，同态加密对于每一个客户端分发的密钥对是一致的吗，如果不一致又是怎么计算的呢
- HERODING77回复tai_iii 2024.04.22
  一致的，如果不一致那就不是中央服务器下发了，那是另一个应用场景了

风凛月 2024.04.20
为什么我加了gmpy2加速包都达不到你同态加密处理3分多一轮的速度，还有哪些提速方案呢
- XDU小迷弟回复风凛月 2024.06.30
  请问您的gmpy2加速包是如何使用的，我使用后处理时间反而更长了[face]emoji:010.png[/face]
- HERODING77回复风凛月 2024.04.20
  我现在不做这个方向了所以也不清楚[face]emoji:010.png[/face]

风凛月 2024.04.16
博主你好为什么我用4090跑第二个文件这么慢啊20多分钟一轮
- 青衿子_lxl回复HERODING77 2024.04.18
  好的，谢谢博主
- HERODING77回复青衿子_lxl 2024.04.17
  这你可能需要调研一下，我之前听说英特尔有个paillier的加速包，能把时间降到之前的十分之一，你可以查一查
- 青衿子_lxl回复HERODING77 2024.04.17
  博主你好，请问有什么方法能加快吗
- HERODING77回复风凛月 2024.04.16
  可能是因为加解密过程是在cpu上进行的，所以效率很低。

风凛月 2024.04.15
请问如果换一个别的数据集需要改哪些地方
- HERODING77回复风凛月 2024.04.15
  这个你参考我数据处理的部分

小冬很懵逼 2024.04.11
请问pycharm可以吗
- HERODING77回复小冬很懵逼 2024.04.20
  是不是conda的环境不一致？你conda list看一下有没有吧
- 小冬很懵逼回复HERODING77 2024.04.19
  我现在输入命令，又变成这样了，这个库我也装了苦笑 python server.py -c ./utils/conf.json Traceback (most recent call last): File "server.py", line 4, in <module> import numpy as np ModuleNotFoundError: No module named 'numpy'
- HERODING77回复小冬很懵逼 2024.04.19
  报的是什么错误，我感觉tqdm和版本没太大关系
- 小冬很懵逼回复HERODING77 2024.04.19
  有的，而且不暴红，但是运行就出现这个错误，我想问一下你这个版本是多少啊
- HERODING77回复小冬很懵逼 2024.04.19
  检查一下你运行环境有没有这个包吧
- 小冬很懵逼回复HERODING77 2024.04.18
  你好我想问一下，我安装了tqdm，但是运行的时候显示没有这个模块
- HERODING77回复小冬很懵逼 2024.04.12
  验证集accuracy，观察有没有过拟合
- 小冬很懵逼回复HERODING77 2024.04.12
  那val_accuracy是指什么呢
- HERODING77回复小冬很懵逼 2024.04.11
  可以的