Location Privacy-aware Service Migration against Inference Attacks in Multi-user MEC Systems

MEC(Multi-access Edge Computing)：多接入边缘计算，指位于网络边缘的云计算，其将算力部署于更接近用户的位置，可降低网络时延，为用户就近提供算力和应用，从而可大幅提升业务体验。

Background

多接入边缘计算（MEC）提供强大的计算能力，并在网络边缘部署必要的服务，被设想为一个有前途的范例(5G)用于支持计算密集型和延迟关键型移动应用程序的系统，如虚拟/参数现实（VR/AR）、手机游戏和自动驾驶

当前用户可以通过无线电接入网（RAN）直接访问附近的边缘服务器（ESs），以帮助实现正在进行的服务，从而减少服务响应延迟，提高用户体验质量.

然而，由于ES的覆盖范围有限，一个单独的ES很难为移动用户提供持续进行的服务。具体地说，当用户远离ES时，移动用户与运行在ES上的用户服务之间的通信可能会经过多次跳转，从而导致较高的通信延迟甚至服务中断。为了解决这个问题，应该将服务动态迁移到相邻的ESs，以适应用户的移动性，这被称为**service migration **。

服务迁移的核心思想是决定何时和在何处迁移服务，以最小化服务响应延迟。在服务迁移成本和服务迁移后获得的好处之间存在一种权衡。

现有的许多研究将服务迁移问题定义为一个顺序决策过程，然后基于马尔可夫决策过程（MDP）设计了服务迁移策略在成本和收益之间找到一个更好的平衡，深度学习模式也被广泛应用于推断移动用户的未来发展轨迹。

Contributions

本文提出了一种针对多用户MEC系统的多用户位置隐私感知服务迁移算法，该算法旨在在保护用户位置隐私的同时最小化服务响应延迟攻击来自对手的位置推理攻击。

提出了一种新的基于熵的位置隐私度量方法，它基于敌手对用户位置的不确定性，准确地测量了位置隐私泄露的风险。
提出了一种针对多用户MEC系统的位置隐私感知服务迁移策略，其中考虑了服务响应延迟和用户位置隐私泄漏的风险。将问题转换为一个部分可观察的马尔可夫决策过程（POMDP），以找到每个用户的最优服务迁移决策。
提出了一种多智能体Soft Actor-Critic（MASAC）算法，考虑了用户间资源竞争，以学习每个用户的分散位置隐私感知服务迁移决策。
基于北京中真实用户移动轨迹（GeoLife dataset) 的实验表明，提出的算法相对于基线算法，服务响应延迟和位置隐私泄露风险方面具有优越的性能。

System Model

System Overview

考虑一个具有M个用户和N个基站（BSs）的多用户MEC系统，其中用户与附近的BSs建立无线通信，并进一步通过与部署在BS上的ES进行有线通信。

文章使用N = {1,2，···，N}来表示BSs的集合，每个BSs都集成了一个资源有限的ES，可以同时为多个用户提供服务. 文章中对于用户当前直接连接的BS 和被用户请求服务的基站做了定义。文章的多用户MEC系统中的一个服务迁移示例如下图所示:
涉及四个BSs和三个用户。在时间t，用户u1和u2从BS 1请求服务s1、s2，u3从BS 2请求服务s3。在时间t + 1中，随着用户的移动，s1、s2和s3被迁移到BS 2、BS 3和BS 4，以保证低响应延迟。然后，在时间t + 2中，所有三个用户都位于BS 4的覆盖区域内。考虑到u1和BS 2之间的通信路径较长，u1将服务s1从BS 2迁移到BS 4。同时，u2仍然从BS 3请求服务s2，而不是BS 4，以缓解压力在BS 4的资源竞争。
因此对于复杂的多用户服务迁移场景，合理的服务迁移策略不仅要考虑用户的移动性，还要考虑用户之间的资源竞争，有效地减少通信延迟，避免资源竞争的干扰，从而确保用户体验。
此外，由于一些恶意的对手可能会根据观察服务迁移轨迹来推断用户的位置，因此应该考虑位置隐私泄漏的风险。为了在保证位置隐私安全的同时尽量减少服务响应延迟，应回答以下问题：

如何准确衡量服务迁移决策造成的位置隐私泄露风险？
考虑到用户的移动性、资源竞争和所有用户的位置隐私泄露风险，服务应该在何时何地迁移？

在这里插入图片描述

Adversary’s Location Inference Attack

在这项工作中考虑的对手被认为是一个honest-but-curious的服务提供商，他们试图通过秘密监视用户的服务迁移轨迹来推断用户的位置。这种假设在许多情况下都是合理的，因为大多数现有的服务迁移策略倾向于迁移服务，以跟踪用户的移动，以提供无缝的服务，攻击者可以通过观察服务迁移轨迹和其他背景知识，发起位置推理攻击来估计用户的位置。

首先，文章考虑了除了用户的服务迁移记录外，对手无法获得任何其他背景知识的情况。
敌手只是假设用户位于部署服务的BS的覆盖区域内，并基于观察用户的服务迁移轨迹来跟踪用户的位置，称为无知识攻击。接下来，我们考虑对手可以通过不同的渠道获得目标用户的部分历史运动轨迹的情况，通过利用这些侧边信息，对手可以挖掘关于用户的迁移模式，并使用贝叶斯位置推理攻击来推断用户可能的位置，也称为基于知识的攻击。具体地说，根据用户历史移动轨迹的背景知识，敌手可以学习用户移动性的概率分布，并构造一个映射用户位置与其服务位置的关系。用户位置的后验分布取决于所观察到的服务位置：
根据公式1，可以通过监控用户的服务位置来推断用户可能的位置：
在这里插入图片描述

Location Privacy Leakage Risk

接下来，文章分别介绍了基于距离的位置隐私度量和基于熵的位置隐私度量。
基于位置的位置隐私度量假设用户的位置隐私泄漏风险与用户与部署服务的BS之间的距离成反比，具体的公式如下所示:
在这里插入图片描述
然而，基于距离的度量侧重于敌手的无知识攻击。当面临基于知识的攻击时，将服务迁移到更遥远的基站并不能有效地保护用户的定位隐私。
且服务的随机迁移会打破用户位置和服务位置之间的相关性，使得对手很难推断出用户的位置。它还会引入了额外的响应延迟，导致用户体验不佳。
为了在确保用户体验的同时保护用户位置的隐私，我们采用了一种基于信息理论的更有效的隐私度量方法，名为隐私熵。设Hm (t)表示用户m在时间t中的位置熵，它为：
在这里插入图片描述
根据信息熵的理论，变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越多。位置熵值越高，导致敌手对用户位置的推断精度较差，位置隐私泄露风险相对较低。

Service Response Latency

服务响应延迟是指用户的请求与其对应的响应之间的时间，主要包括通信延迟、计算延迟和迁移延迟。里面每项延迟如何计算具体可以看文章，以下是文章对于服务响应延迟的整体定义:
接下来，我们定义了时间t中用户m的服务响应延迟。

Problem Formulation

由于用户的移动性，需要决定何时何地在BS之间迁移服务。文章的目标是最小化服务响应延迟，同时保护位置隐私不受泄漏的影响。我们使用Cm(t)表示时间段t中用户m的总成本，即为：
在这里插入图片描述

LOCATION PRIVACY-AWARE MULTI-USER SERVICE MIGRATION ALGORITHM

P1是一个遵循马尔可夫性质的无记忆序列决策问题，因此，可以应用马尔可夫决策过程（MDP）方法。
此外，由于用户间的相互干扰，不同用户的迁移决策会相互影响、导致用户服务响应延迟和位置隐私泄露风险的紧密耦合。
因此，文章将P1转换为一个POMDP（Partially Observable Markov Decision Process）问题，并使用多智能体深度强化学习（MADRL）算法来求解它。
在这里插入图片描述
$ε\varepsilon$ :一个形容系统状态的集合
$A\mathcal{A}$ :代表用户可能会执行的行为的集合
$P$ : $P(et+1∣et,at)P(e^{t+1}\mid e^{t},a^{t})$ 定义了当执行 $a^{t}$ 时，从 $e^{t}$ 转移到 $e^{t+1}$ 的概率。
$O\mathcal{O}$ : 表示用户可以观察到的局部环境状态
$U$ :表示用户可以观察到的局部环境状态的分布，即 $U(ot∣at−1,et)U(o^{t}\mid a^{t-1},e^{t})$ 给定上一次执行的活动 $a^{t-1}$ 和整个系统的状态 $e^{t}$ ，用户可以观察到的状态 $o^{t}$ .
$r(o^{t},a^{t})$ ：基于 $a^{t}$ 被执行时观察到的状态 $o^{t}$ 所获得的瞬时奖励。
$γ\gamma$ :损失因子。

然而，由于用户移动的不确定性，准确预测状态转移分布 $P$ 和观测分布 $U$ 具有挑战性。但DRL技术可以使用DNN来实现学习这些概率分布.

接下来介绍一下这篇文章如何定义以上的变量：
Environment State：
在我们的多用户MEC系统中，一个完整的环境包含所有用户的信息（即用户位置、初始服务位置以及请求的服务信息）和所有BS的配置信息（即每个BS的计算能力）。在时间t，环境状态等可以表示为：
在这里插入图片描述
observation State:
我们假设多个用户之间没有信息交换，每个用户只能观察到一个部分的环境状态。设 $omto^{t}_{m}$ 表示用户m在时间t观测到的状态，可以为定义为：

Migration Action:
表示服务在时间t的应该迁移到的目标BS。

Instantaneous Reward
在观察到某状态时执行某个特定活动所获的的瞬时系统反馈。

MASAC-based Service Migration Algorithm

【前景提要：SAC算法（Soft Actor-Critic algorithm）是一种用于连续动作空间强化学习的算法，是深度强化学习领域中最先进的算法之一。这个算法利用了最大化熵的思想来优化策略，以及使用了两个Q值网络来估计动作值函数。SAC算法的训练过程包括两个阶段：策略优化和Q值优化。在策略优化阶段，SAC算法使用贝尔曼方程来更新策略，并使用梯度下降法来更新策略网络的参数；在Q值优化阶段，SAC算法使用一个目标Q值网络来计算目标Q值，并使用梯度下降法来更新Q值网络的参数。】

由于熵反映了策略的随机性，当环境中的多个行为看起来同样具有吸引力时，具有高熵值的策略使得agent在运行时执行高奖励的行为尽可能多。又由于SAC算法针对单用户情况，当多个agents同时更新它们的迁移策略时，环境显得不平稳，导致训练过程的不稳定。
因此，文章开发了MASAC算法，以克服多智能体环境固有的非平稳性，并做出位置隐私感知的服务迁移决策用户之间资源竞争的干扰。如下图所示：
在这里插入图片描述
Soft Q-value network是指一种用于连续动作空间强化学习的Q值网络，它是SAC算法中的关键组成部分。

每个用户都被视为一个SAC代理，它根据其局部观察状态独立地做出服务迁移决策。
文章的目标是为每个用户找到一个随机策略，从而最大化：预期的奖励+熵值。
在这里插入图片描述

作为actor-critic算法的一种变体，MASAC包含了两个关键组成部分，即策略评估模型（即critic）和策略改进模型（即actor）。给定的观测状态以及所有agents的动作作为输入，
critic模型：基于其自身的观测状态更新soft Q值和soft state值函数来评估环境反馈。
**actor模型：**致力于为agents做出最佳的迁移决策。

文章提出的算法如下所示:
在本文中遵循集中训练和分散执行的模式，即其他代理的观察状态和行动在训练阶段是可观察的，这些信息在执行阶段是不可观察的。

算法步骤:

在训练阶段开始时，首先初始化每个代理的模型参数；
在每个单位时间，每个代理观察其观察状态，并根据其迁移策略决定迁移动作。在所有的agent都执行行为后，environment会计算每个agent的即时奖励，并转换到一个新的状态。
每个agent使用经验回放环境缓冲区收集历史环境信息，如观察状态、行动和奖励。即将当前状态获取到的信息存放到一个经验池，用于后续进行策略模型和评估模型训练的数据集，使所有agent的长期折扣奖励最大化。

受益于集中训练，agents相互协作，无需信息交流，因此，在执行阶段，每个agents使用经过训练的策略网络，根据观察状态独立地做出自己的服务迁移决策，从而减少了agents之间的干扰,并允许agent为具有低服务响应延迟和位置隐私泄漏风险的用户做出服务迁移决策。
在这里插入图片描述

在这里插入图片描述

PERFORMANCE EVALUATION

在本节中，文章进行了数值实验来评估所提出的算法的性能。

Simulation Setup

文章模拟了一个常规的蜂窝网络场景，即13个BSs部署在1000米×1000米的区域.对于BS n∈N，BSs的通信半径为200m，计算容量∆n由[5,20] GHz随机生成.
数据集：GeoLife DataSet
Metrics:service response latency & location privacy leakage risk
Baselines:
本文其实是MASAC-entropy
在这里插入图片描述

Impact of Wireless Bandwidth

图4(a)显示了敌手在无知识攻击和基于知识的攻击下的定位精度。敌手无知识攻击和基于知识的攻击下的定位精度的结果分别如图4(b)、4©所示。针对有知识攻击，DMDP-distance、MASAC-distance、MASAC-dp和文章提出的算法可以有效地降低定位准确率在14%-27%左右，明显优于DMDP和MASAC算法。然而，当面对有知识攻击时，定位精度与DMDP-distance，MASAC-distance算法增加到52%到65%左右。这是因为，对手收集辅助知识来提高用户位置的推理准确性。与DMDP-distance相比，MASAC-dp和文章提出的算法仍然可以将位置精度限制在30%以下，因为它们通过增加迁移决策的随机性来降低上述相关性。
在这里插入图片描述图5(a)显示了无线带宽对服务响应延迟的影响。很明显，六种算法的服务响应延迟随着无线带宽的增加而减少，其中MASAC算法的服务响应延迟侧重于优化多个用户的服务响应延迟。文章提出的算法达到了第二低的服务响应延迟，而其他算法有更高的服务响应延迟。同时，对于DMDP和DMDP-distance等基于DMDP的算法，也可以找到它在图5(d)中，它们的计算延迟明显高于其他算法，因为它们忽略了多个用户之间的资源竞争。
MASAC- distance算法具有很高的通信延迟，因为它们将服务迁移到远程BSs，以保护用户的位置隐私，从而导致较高的通信路径距离。对于MASAC-dp算法，图5(b)和图5©显示，它增加了位置噪声，保护了用户位置隐私，但造成较高的通信延迟和迁移延迟。综上所述，在无线带宽变化的情况下，该算法在有效保护用户位置隐私的同时，实现了接近最优的服务响应延迟性能。

Impact of Service Request Data Size

图7(a)显示, 随着请求数据量的增加，MASAC和文章提出的算法的服务响应延迟比其他算法增长得更慢。
从图7(b)所示的通信延迟结果来看，DMDP-distance和MASAC-distance算法的通信延迟迅速增长。这是由于使用这些算法会随着服务数据的增长而降低服务迁移频率，因此，通信距离会随着用户的移动而增加。图7©显示了迁移延迟的结果，其中MASAC-dp和我们提出的算法具有很高的迁移延迟，因为它们需要经常将服务迁移到新的bs中，以增强迁移决策的随机性，以保护用户的位置隐私。由于迁移频率较低，MASAC-dp算法具有最低的迁移延迟。图7(d)显示了计算延迟结果，与图5(d)相似，计算结果DMDP和DMDP-disctance算法的延迟远远高于MASAC算法，说明了优化多用户间资源竞争的意义。
在这里插入图片描述

Impact of User Number

六种不同用户数量的算法的位置隐私保护能力如图8所示。用户的数量从16人到80人不等。随着用户数量的增加，基于DMDP的算法的熵几乎没有变化，而基于MASAC的算法的隐私熵则相应增加。这是因为，当用户数量很大时，基于MASAC的算法就会迁移为不同的基站提供技术服务，以减轻用户之间的资源竞争。
这是因为，当用户数量较大时，基于MASAC的算法会将服务迁移到不同的BSs，以减轻用户之间的资源竞争，因此增强了服务迁移决策的随机性。所以随着用户数量的增加，两种类型的对手的位置推理攻击对基于MASAC的算法的定位精度逐渐降低。
图9(a)显示，随着用户数量从16个增加到80个，MASAC、MASAC-distance、MASAC-dp和我们提出的算法的服务响应延迟平稳增长，而DMDP和DMDP距离算法的服务响应延迟则迅速增长。这是因为用户间的资源竞争导致的高计算延迟。
在这里插入图片描述

CONCLUSION

本文研究了多用户MEC系统中服务迁移过程中的位置隐私泄漏挑战。为了应对对手不同的位置推理攻击，我们提出了一种基于熵的位置隐私度量方法，该方法将对手对用户位置的不确定性精确地描述为存在用户位置隐私泄露风险。
然后，文章将服务迁移过程描述为一个POMDP优化问题，并提出了一种多用户MEC系统的位置隐私感知服务迁移方法，旨在确保低服务响应延迟，同时保护用户的位置隐私。为了缓解用户间资源竞争的干扰，文章还设计了一种基于SAC的分布式MASAC算法，以最小化每个用户在业务迁移过程中的平均总成本。
最后，在不同的系统参数下，如不同的网络带宽、不同的服务请求数据大小和不同的用户数量，进行了大量的仿真来评估所提出的方法的性能。该方法可以有效地防御对手的位置推断攻击，提高用户的位置隐私性。同时，业务可以无缝迁移，响应时延低，保证了高质量的服务。

【在传统的Q值网络中，动作空间通常是离散的，Q值网络通过学习一个动作值函数来估计每个动作对应的Q值。但是，在连续动作空间中，动作空间是一个连续的空间，这使得传统的Q值网络不再适用。
为了解决这个问题，SAC算法引入了soft Q-value network，即软Q值网络。在软Q值网络中，动作空间仍然是连续的，但是Q值网络不再直接输出一个动作值函数，而是输出一个关于状态和动作的概率密度函数。这个概率密度函数可以用来表示每个状态下每个动作的Q值，从而支持连续动作空间的强化学习。软Q值网络通过最大化熵的方式来优化策略。
软Q值网络是SAC算法中关键组成部分。
soft Q-value用于评估状态-动作对的好坏，从而为智能体提供更好的决策支持。Soft state-value用于评估状态的好坏，从而为智能体提供更好的状态评估和决策支持。
】

【Actor-Critic算法是一种用于强化学习的算法。
在Actor-Critic算法中，Actor负责学习策略，即根据当前状态选择一个动作；而Critic负责学习动作值函数，即根据当前状态和动作估计一个Q值或者价值函数。Actor和Critic可以使用不同的算法进行训练，例如Actor可以使用策略梯度算法进行优化，而Critic可以使用Q-learning(动作值函数（Action-Value Function）或者称为Q值函数（Q-Value Function）是指在某个状态下执行某个动作所能获得的期望回报值)算法进行优化。
在训练过程中，Actor和Critic可以相互交替进行，即Actor根据当前策略选择一个动作，Critic估计当前状态和动作的Q值或者价值函数，即Critic能够提供一个评估当前策略的方法，Actor可以根据Critic提供的Q值函数信息来更新策略，从而不断提高策略的性能和效果。并根据估计的值函数来更新Actor的策略。这样的交替训练可以提高算法的收敛速度和稳定性。】