DPNeT:实现隐私保护的网络流量合成
1. 引言
在网络流量分析中,保护数据隐私至关重要。DPNeT 作为一种解决方案,旨在合成具有隐私保护的网络流量数据。本文将详细介绍 DPNeT 的工作原理、训练过程、改进策略以及评估结果。
2. DPNeT 工作原理
2.1 嵌入网络
嵌入网络是一个简单的单隐藏层神经网络,包含 20 个神经元。其作用是为 GAN 训练集生成数值特征向量。具体步骤如下:
1. 利用领域专家为每个输入特征确定的一组特征进行训练。
2. 训练完成后,以隐藏层的权重作为单词(即网络流量属性)的特征向量。
3. 对于 GAN 生成的合成特征向量,在嵌入空间中基于余弦相似度检索词汇表中最相似的单词,并输出合成网络流量记录。
2.2 训练嵌入模型
为了准确学习特征相似度并保护隐私,DPNeT 使用与 GAN 模型敏感训练集不相交的公共数据集来训练嵌入模型,主要基于以下三点考虑:
1. 准确学习特征相似度 :使用公共数据集可以在不损失隐私的情况下迭代微调参数。
2. 较小的训练集 :由于准确性较高,嵌入模型的训练集不需要很大,且更容易对词汇表进行清理。
3. 通用网络流量编码 :嵌入网络应学习独立于 GAN 训练数据的通用网络流量编码,以生成可用于其他应用的嵌入模型。
2.3 数据插补
由于嵌入模型的词汇表可能不包含 GAN 训练集中的所有单词,因此需要对敏感训练数据进行插补,即将嵌入
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



