异构物联网中多接入边缘计算的大数据隐私保护
摘要
随着智能设备的普及,多接入边缘计算(MEC)已成为处理异构物联网(H-IoT)中大数据的主流方式。MEC充分利用边缘节点的计算能力,大幅减轻了数据中心的计算压力,为大数据的存储与处理带来了极大的便利。然而,由于分布式节点缺乏集中式管理,容易成为黑客攻击的目标。一旦这些节点被攻破,将引发一系列隐私问题。本文中,我们首先概述了面向异构物联网(H-IoT)的多接入边缘计算(MEC)架构。该架构涵盖三个层级的高级功能实体,包括移动边缘(ME)系统级、ME主机级和ME网络级。其次,我们重点关注MEC中的隐私问题,特别是在数据聚合和数据挖掘方面的隐私问题。此外,我们将机器学习隐私保护作为MEC应用中的一个案例进行研究。仿真结果表明了所提出方法的可行性。最后,我们提出了未来研究的开放问题。
引言
近年来,多接入边缘计算(MEC)在异构物联网(H-IoT)场景下的数据处理、数据分析和数据存储方面受到了广泛关注。MEC在分析和挖掘数据、感知位置信息(如定位)以及低延迟[1]等方面带来了巨大优势。异构物联网(H-IoT)中的大数据,例如宽带下载、在线业务、健康感知等,包含大量有效信息的分析与挖掘。异构物联网(H-IoT)的主要特征之一是具有海量节点,这些节点产生持续不断的数据流。由于节点规模庞大,H-IoT要求骨干网络汇聚更多的数据,并且相较于传统互联网,对数据传输速率和实时性能提出了更高的要求。此外,H-IoT的应用领域包括智慧城市、智能家居、医疗诊断、安全监控等领域。不同领域中大量应用的出现导致了这些多接入边缘计算数据的多样化和复杂性。因此,为了充分利用节点计算能力,多接入边缘计算需要通过使用机器学习方法来提高数据处理效率。然而,由于多接入边缘计算数据具有异构性和复杂性,并包含大量用户敏感信息,在多接入边缘计算使用机器学习方法进行数据处理和预测时,不可避免地会涉及一些隐私记录,例如车牌、税务信息、个人资产信息。近年来,经常可以看到黑客利用机器学习中的隐私漏洞,从模型中恢复出私有的敏感训练数据。
Fredrikson et al. [2]利用计算机视觉分类器的隐私泄露问题,从训练数据中暴露了个人图片信息。因此,机器学习中的数据隐私问题正变得越来越严重,特别是训练数据集的隐私保护问题。一旦包含敏感信息的数据遭到恶意攻击,极有可能被犯罪分子利用。
为保证训练数据集的隐私,本文首先分析了异构物联网(H-IoT)中多接入边缘计算(MEC)环境下训练数据集可能面临的隐私问题。如图1所示,MEC中存在大量个人边缘节点和商业边缘节点,这些节点具备一定的数据处理能力。这些节点可使网络与终端协同工作,实现业务本地化处理、降低服务时延并提升网络效率[3]。从图中可以看出,这些边缘节点能够分析异构物联网中的多种不同类型的大数据。例如,分析人员通过分析医疗诊断结果并进行预测,更有助于问题的预测与解决。分析人员可通过整理海量训练数据集,找出癌症患者的共同特征,从而在癌症诊断方面提供比其他方法更好的帮助。然而另一方面,攻击者可能会侵入数据集中某些敏感数据个体以实现其不可告人的目的。这正是隐私保护面临的一大挑战。
目前:如何确保分析人员在多接入边缘计算中进行数据分析时不太可能导致敏感数据泄露。最近,多接入边缘计算(MEC)的安全与隐私问题逐渐成为业界关注的焦点。Hu et al. [4]证实,边缘计算能够在WiFi网络中实现计算密集型和高度交互的应用程序,并显著降低延迟。Bastug et al. [5]提出了一种主动缓存方案,实验结果表明回程链路最多可节省22%。Bayat et al. [6]专注于防止节点被对手通过暴露的相关属性信息重新识别。Qiao et al. [7]提出地理分布可作为大数据特征的第四维度。Ahmed et al. [8]指出,边缘网络能够从无处不在的传感器设备安装中获取并分析实时数据,从而真正实现智能停车和交通控制。
然而,对于机器学习中隐私保护问题的研究尚未得到足够关注。在本文中,我们研究了在多接入边缘计算(MEC)中利用机器学习处理数据时的大数据隐私保护问题。我们首先概述了异构物联网(H-IoT)中MEC的架构,并分析了该架构中可能存在的隐私问题。其次,我们针对数据聚合和数据挖掘两个方面,探讨了MEC中的隐私问题。此外,我们以机器学习隐私保护为例,研究其在MEC应用中的实现。仿真结果表明,我们的方法能够有效保护训练数据集的隐私,同时保证基准数据集的准确性。最后,我们指出了未来研究方向。
本文的其余部分组织如下。我们设计了面向异构物联网的多接入边缘计算架构。接着分析了多接入边缘计算中的隐私问题。随后提出了一个多接入边缘计算中隐私保护的案例研究。我们讨论了开放问题。最后,得出了结论。
异构物联网的多接入边缘计算架构
MEC层级
如图2a所示,多接入边缘计算覆盖了三个层级的高级功能实体,为模块化和开放式解决方案提供了便利,具体如下:
- ME系统级 :ME系统级管理是多接入边缘计算的核心,对整个ME系统起协调作用,并为用户或第三方提供便捷的接入。
- ME主机级 :ME主机级包括ME主机和ME主机级管理。ME主机负责提供虚拟化基础设施和移动边缘平台。此外,ME主机级管理包括移动边缘应用所需的调度。
- ME网络级 :ME网络层也至关重要。作为多接入边缘计算的底层,ME网络层能够建立大量的网络连接,包括本地网络、第三代合作伙伴计划(3GPP)蜂窝网络以及外部网络。
MEC参考架构
如图2b所示,MEC参考架构为MEC系统提供了功能单元和应用程序接口,并聚焦于ME系统级和ME主机级[9]。ME主机通过虚拟化基础设施提供计算、存储和网络资源。此外,ME主机提供必要的ME服务,即ME平台,以促进和实现ME应用(Apps)的运行。MEC可由用户设备(UE)中的UE应用直接使用,也可通过面向客户的服务(CFS)门户被第三方客户所利用。MEC系统级管理在UE、CFS门户与MEC系统之间提供对接交互通道。为了互联各种设备,我们在MEC参考架构中定义了三种不同的通信链路,即Mx、Mp和Mm。此外,MEC系统中的用户应用生命周期管理代理能够协调来自各方的不同请求,这是MEC系统级管理的另一项关键功能。简而言之,ME平台管理器主要负责管理应用程序的生命周期、服务提供标准以及交易原则。此外,虚拟化平台管理器的功能主要集中在管理和调度虚拟化计算/存储资源[10]。最后,在MEC参考架构中,MEC服务器是不可或缺的,因为它可以在虚拟化基础设施上用于运行MEC应用程序。
因此,多接入边缘计算可以有效利用分布式节点的计算能力,大幅提高运行效率。但与此同时,多接入边缘计算也面临一些潜在的隐私问题。我们将在下一节分析多接入边缘计算的隐私问题。
多接入边缘计算中的大数据隐私问题
大数据隐私
如图1所示,数据采集、聚合、挖掘与分析是大数据处理的三个基本步骤。具体而言,数据采集旨在感知并收集异构物联网中多接入边缘计算的各类对象的状态数据。此外,数据聚合是指将大量零散的相关数据进行收集与整合,形成全面的信息。特别是数据挖掘与分析,用于提取异构物联网中综合信息的潜在价值。
多接入边缘计算充分利用了大量分布式边缘节点的计算能力,从而减轻了数据中心的计算压力。边缘节点在网络中分布不规则,导致它们无法被有效集中控制[11]。一些安全保护较差的边缘节点可能成为入侵者恶意攻击的突破口。
考虑到这些隐私问题,越来越多的关注集中在隐私保护机制。首先,提出了匿名机制以保护数据聚合中的身份信息隐私。特别是,k‐匿名性和流量检测技术为隐私保护提供了方向[12]。然而,该匿名机制需要进一步增强,以应对多维敏感数据的保护需求。此外,传统的非对称加密方法如RSA和Elgamal虽然便于加密密钥的管理,但其算法计算开销过大,难以对持续增长的大数据私有信息进行高效加解密。数据加密增加了用户和平台的计算开销,限制了数据的使用与共享,导致高价值数据的浪费。第三,数据扰动机制通过干扰原始数据来实现隐私保护,包括添加噪声、数据定制等。然而,众多扰动机制在实现隐私保护的同时往往牺牲了数据效用,因此难以实现数据效用与隐私保护之间的平衡。
机器学习中的隐私保护
除了数据采集和聚合中的隐私问题外,值得注意的是,数据挖掘阶段也可能暴露隐私问题。作为一种高级的数据挖掘方法,机器学习经常用于数据分析。然而,机器学习中的训练数据通常携带敏感信息,这使得攻击者有机会通过训练模型中的少量数据获取信息。此外,攻击者甚至可能修改训练数据并改变训练模型,导致机器学习结果的失真。例如,智能手机的虚拟键盘通过学习用户的输入习惯可以实现比其他键盘更好的预测效果。但是,某个用户的特定输入字符序列不应出现在其他手机屏幕上,除非有足够大比例的用户也会输入相同的字符序列。
案例研究:异构物联网中多接入边缘计算的机器学习隐私
隐私保护方法
我们提出了两种利用差分隐私实现隐私保护的方法。差分隐私为隐私保护提供了严格的数学证明。该方法旨在最大化查询准确性并最小化隐私泄露风险。通过向聚合查询结果添加随机噪声,可以在不显著改变查询结果的前提下保护个体数据条目。为解决训练数据的隐私问题,本文展示了如何通过添加拉普拉斯噪声来增强训练数据的隐私保障。我们考虑在输出值上添加拉普拉斯随机噪声,并通过输出扰动(OPP)方法实现差分隐私保护。扰动步骤如图3所示。
此外,考虑到任何节点在处理数据时都可能存在隐私问题,我们进一步提出了一种目标函数扰动(OJP)方法。与OPP不同,该方法将噪声添加到目标函数本身,然后产生目标扰动的最小化。实际上,我们预先对被阻断的数据添加噪声,然后由每个边缘节点进行计算和处理,从而进一步增强了隐私保护的性能。
选择合适的拉普拉斯噪声非常重要,因为过多的噪声会导致数据效用降低,而过少的噪声则会导致隐私保护性能不足。噪声量取决于函数的敏感度以及输入值的变化。此外,有许多因素会影响隐私保护和数据效用。其中最重要的因素是ε,它是判断差分隐私是否满足的重要条件。
实验结果
在本小节中,所提出的方法在真实数据集上进行了验证,这些数据集包括MNIST(混合国家标准与技术研究所数据库)、SVHN(街景房屋号码)、CIFAR‐10和STL‐10。MNIST包含手写数字图像,其中50,000个样本被划分为训练数据集,10,000个样本作为测试集。SVHN是一个现实世界中的图像数据集,包含72,048个用于训练的数字和25,964个用于测试的数字。CIFAR‐10由分为10类的彩色图像组成,其中50,000个样本为训练样本,10,000个样本为测试样本。STL‐10数据集与CIFAR‐10数据集类似,但STL‐10在训练数据集中标注的信息少于CIFAR‐10。我们将所提出的OPP和OJP方法与两种现有算法进行比较,即随机梯度下降(SGD)和具有教师私有聚合的生成对抗网络(GANs)集成模型(PATE‐G)[13],在准确性、数据效用和隐私方面的表现。
准确性 :我们探讨了参数ε对准确性的影响。在此实验中,我们将OPP和OJP算法与现有的SGD和PATE‐G在四个不同的数据集上进行比较。图4显示了当N= 100时,OPP和OJP算法在MNIST、SVHN、CIFAR‐10和STL‐10四个数据集上的准确性。我们可以看到,当参与者的数量增加且ε的初始值较小时,准确性相对较差。然而,另一方面,随着ε值的增加,准确性显著提高,表明ε的值对准确性具有重要影响。
隐私保护质量 :我们评估隐私保护的质量。在本小节中,我们通过实验寻找合适的ε值。如表1所示,在四个不同的数据集上进行了两组对比实验。我们假设不同的训练数据集中查询次数不同,即MNIST数据集有100次和1000次查询。首先,我们设置ε= 2.06,发现当查询次数为100时,OPP和OJP的准确性分别为97.01%和96.88%,略高于SGD的95.12%和PATE‐G的96.43%。从表1中我们可以进一步观察到,在大多数情况下,OPP和OJP的准确性优于SGD和PATE‐G。通过引入拉普拉斯噪声,机器学习方法能够在不同类型的數據集上进行数据处理和训练。我们或许可以考虑引入拉普拉斯机制到不同的机器学习方法中,以找到适合处理相应数据集的方法。
| 数据集 | ε | 查询次数 | SGD | PATE-G | OPP | OJP |
|---|---|---|---|---|---|---|
| MNIST | 2.06 | 100 | 95.12% | 96.43% | 97.01% | 96.88% |
| MNIST | 8.23 | 1000 | 94.47% | 93.82% | 95.23% | 94.67% |
| SVHN | 5.03 | 500 | 91.29% | 92.24% | 92.06% | 92.76% |
| SVHN | 8.12 | 1000 | 89.44% | 90.12% | 91.06% | 92.33% |
| CIFAR-10 | 4.19 | 100 | 90.66% | 91.72% | 90.14% | 92.03% |
| CIFAR-10 | 8.24 | 1000 | 86.82% | 89.06% | 89.44% | 90.10% |
| STL-10 | 3.19 | 500 | 91.24% | 92.45% | 94.82% | 93.14% |
| STL-10 | 8.57 | 1000 | 91.09% | 91.88% | 93.46% | 92.81% |
数据效用 :在本小节中,我们考虑实验中的数据效用。我们通过中位聚类系数来衡量数据效用[14]。图5显示,当ε的值增加时,中位聚类系数持续上升。我们可以看到,当ε的值较大时,在MNIST数据集上,OPP的中位聚类系数略优于OJP,而在其他三个数据集上,两种算法的性能差异不大。
因此,我们可以得出结论:我们的方法OPP和OJP能够在确保高准确性和数据效用的同时,有效保护训练数据集的隐私。需要注意的是,ε的值不能过大,否则会降低数据效用。实验表明,合理的ε取值范围在10⁻²到20之间。
讨论:挑战与开放性问题
多接入边缘计算安全与隐私
多接入边缘计算(MEC)带来了前所未有的计算能力,但与传统云计算相比也伴随着多种安全风险。一方面,MEC可能面临大量恶意攻击,例如分布式拒绝服务攻击(DDoS)、中间人攻击,甚至来自网络中用户自身的攻击。由于第三方可以访问MEC平台,因此需要严格的安全部署策略。如果第三方身份不可靠,则会构成潜在威胁。另一方面,身份认证和隔离技术仍需进一步探索。特别是不同参与方之间的隔离还应提供隐私保障,以确保各方之间的双向信任。此外,MEC暴露了大量的位置信息泄露问题,导致一系列位置隐私和轨迹隐私问题。因此,保护用户的位置隐私是一项巨大的挑战。
机器学习中的隐私保护
在机器学习中,训练数据集通常包含敏感信息。由于这一点,黑客可以利用少量带有敏感信息的数据破坏整个训练模型,导致训练失败。因此,将多接入边缘计算与机器学习相结合以保护隐私,不仅可以提高训练效率,还能保证训练的准确性。此外,拥有先验知识的攻击者可以根据少量信息推断出用户的敏感信息,这是机器学习面临的主要隐私挑战之一。
差分隐私
差分隐私是近年来最新的隐私保护方法,提供了严格的数学证明以确保隐私保护。差分隐私允许分析人员进行良性聚合分析,同时有效保护个人隐私[15]。此外,差分隐私在输入扰动、数据发布和输出扰动方面也做出了重要贡献,因为该方法可以通过添加拉普拉斯噪声分别实现输入扰动和输出扰动。该方法确保了攻击者所获取的数据与其从从未被记录的个体数据中所能获得的数据相差不大。
然而在实际中,数据集中的大多数记录都是相互关联的,这些数据集被称为关联数据集。差分隐私技术在关联数据集上的隐私保护效果并不理想。相关性差分隐私已成为一个亟需解决的关键问题。目前,在相关性差分隐私方面的研究还十分有限。因此,如何在关联数据集中满足严格的差分隐私,是另一个需要解决的挑战。
结论
在本文中,我们描述了一种用于异构物联网的多接入边缘计算架构。接着,我们分析了多接入边缘计算中与数据聚合和数据挖掘相关的隐私问题。我们提出了一种结合差分隐私的机器学习策略,作为多接入边缘计算应用中的案例研究。实验结果表明,我们提出的方法能够在确保数据效用和数据训练准确性的同时保护数据隐私。最后,我们提出了未来工作的一些开放问题。
643

被折叠的 条评论
为什么被折叠?



