笔记2.Blockchain and Federated Learning forPrivacy-Preserved Data Sharing in Industrial IoT

最新推荐文章于 2025-12-19 15:31:04 发布

原创最新推荐文章于 2025-12-19 15:31:04 发布 · 425 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

本文针对工业物联网数据共享的安全和隐私问题，设计了一种基于区块链和联邦学习的安全数据共享机制。该机制通过多方检索、模型训练等过程，实现分布式用户间的数据共享，同时利用质量证明共识机制平衡开销与安全，重点关注非结构化文本数据处理。

背景

在工业物联网范式中，设备产生的数据量快速增加，这为应用程序使用数据共享的方式提高服务质量开辟了新的可能。然而，安全和隐私问题（例如数据泄露）是数据提供者在无线网络共享其数据的主要障碍。

在大多数现有的数据共享方案中，集中式管理员的存在增加了数据泄露的风险，特别是在分布式应用中。主要有两个障碍：一是管理员需要处理来自各方的聚合数据，包括一些未知的新数据；另一种是，这些数据提供方都不信任他人，因此担心数据泄露。

系统模型

本文的目标是设计一种安全的数据共享机制，既可以在分布式的多个用户之间智能的共享数据，同时又可以有效地维护数据隐私。

假设有N个数据持有者和一个联合数据集D。对于任何一个pi，他都包含一个本地数据集Di∈ D，R=r1，r2...rm是请求者提交的共享数据的请求。我们不返回原始数据，而是提供这些查询的计算结果进行共享。然后，所有与请求相关的参与者根据相应的学习算法训练一个全局模型M，而不泄露任何私有数据。最后将训练好的全局数据模型M返回给数据请求者。利用接收到的模型，数据请求者可以获得所需要的数据R(M)

本文容易受到三种类型的威胁。1.提供数据的质量。不可靠的提供者可能向请求者提供有偏见或不准确的结果，从而降低整个共享数据的可用性。2.数据隐私问题，提供者和接收者可能会试图从共享数据中推断出其他人的私有数据，这可能会导致来自数据提供者的不必要的敏感数据泄露。如果一组参与者试图推断其他参与者的数据，那么也存在共谋的威胁。3.数据权限管理。一旦原始数据被共享，数据所有者将失去对这些数据的控制，并且这些数据可能会被一个不诚实的参与者共享给其他未经授权的实体。

本文提出的数据共享体系结构如图。该系统由区块链和联邦学习两个模块组成。区块链通过加密记录在所有终端设备之间建立安全连接，该记录由配备计算和存储资源的实体维护，命名为超级节点，如基站。

一个数据请求者启动一个数据共享请求，其中包含一组查询Fx = {f1，f2，...，fx }到附近的超级节点SNreq。附近的超级节点首先搜索区块链，以检查该请求之前是否被处理。如果发生命中，该请求被转发已缓存结果的节点，缓存的结果作为回复发送给请求者。否则，对于新的数据请求，执行多方数据检索过程，根据注册记录查找相关各方。本文将这个节点视为委员会节点，他们负责推动共识地进行。然后委员会节点通过联邦学习训练一个全局数据模型M。一旦模型被训练好，数据请求者r使用Req = {f1，f2，...，fx }作为M的输入，并得到相应的共享结果M(Req)。

区块链和联邦学习的安全数据共享

非结构化数据，比如文本占数据的大部分，同时这一部分的研究也是有限的。为了填补这一空白，本文重点关注共享场景中的非结构化数据-文本数据。

本文利用图来表示原始数据，保留更多的结构和上下文信息。

加权上下文图G = {V，E}由一组节点V和一组边E⊆V×V组成。每个节点ni包含一个文本术语tni和它的权重。每个边eij连接节点ni和nj，权重weij表示相关度。使用权值矩阵A = [aij]来表示图。所有文本都转移到加权上下文图{G1，G2，...，Gn }中。

第二步，本文序列化这些图。虽然图保留了大量的上下文信息，但他们很难被机器学习算法作为输入进行进一步处理。我们通过将图序列化为一个有序列的向量来将图映射到线性向量中。将这些图合并成一个全局图G = G1∪G2，...，∪Gn。对于全局图G = {V，E}，设k为有代表性的顶点的个数。然后，节点的标准化属性的大小为k，边的标准化属性的大小为k×(k−1)/2。利用Jaccard相似度作为距离函数，用k-means算法对文档进行聚类。在归一化加权图和定义的距离度量的帮助下，根据文本相似度将数据集{D1，...，Dn }聚类为不同的类别，还根据他们的数据将参与的用户分成不同的组。

多方检索机制

所有的参与方根据它们所拥有的数据类别被分为不同的组，同一组内拥有相同的数据类别。每个组会维护一个本地检索表，记录所有的组。

组中的每个节点也会维护一个本地检索表，这个表记录距离该节点一定距离范围内的其他节点。例如，节点1会在自己的本地检索表中，记录距离自己为1的节点，距离自己为2的节点......距离自己为n-1的节点等，节点的本地检索表结构如图所示，每个虚线框代表一个节点，一个bucket表示在该距离内的所有节点。其中距离结合了物理距离和逻辑距离