边缘智能-分布式计算连续体系统-阅读笔记

Edge Intelligence—Research Opportunities for Distributed Computing Continuum Systems

[论文链接]  https://dsg.tuwien.ac.at/team/sd/papers/Zeitschriftenartikel_2023_Casamayor_V_Edge.pdf 

云计算缺点

十多年前,云计算的出现被视为所有互联网分布式系统的架构和未来。总的来说,它为解决方案和商业机会提供了出色的选择。

范式转变的原因

  • 首先,云计算与数据生成地(物联网或网络边缘)的距离严重影响了应用程序的延迟和网络拥塞。

  • 其次,由于云集群具有单点故障的特点,给应用程序带来了风险,这是由于它们的单一和集中式架构。

  • 第三,对数据隐私的关注日益增加,这些数据存储在远离所有者控制的数据中心中。

分布式计算连续体 (distributed computing continuum)承诺通过让应用程序使用最适合它们的计算资源来改善云计算的所有缺点(当前出现的新兴范式是将边缘计算和云计算整合在一起)。

云计算正在迎接无服务器计算这一新趋势,这减轻了应用程序开发人员对基础设施管理的所有负担,并将所有责任转移到了基础设施方面,使其能够透明地为应用程序进行管理。

在边缘使用机器学习(ML)和/或人工智能(AI)组件增加了应用程序的需求:要管理的数据量急剧增加,允许的通信延迟最小,这也提升了整个系统的复杂性。

边缘计算的特性

核心特性:这些特性源自分布式计算连续体系统(distributed computing continuum systems ,DCCSs)的定义;

  • 地理分布:计算资源在空间上分布,任何可以连接到网络的计算资源都属于其中。

  • 大规模:包含许多资源,并为许多用户提供服务。

  • 多租户和多所有权:计算资源需要共享。否则,每个应用程序都需要自己的基础设施,这是完全不可持续的。

  • 开放系统:受到外部代理和外部环境状态的影响,它们需要具有高弹性和自适应能力。

  • 异质性:不同计算资源的范围是巨大的,从单板计算机或小型控制器到高性能计算机或量子计算机,以及跨计算结构的数据类型、框架和中间件存在异质性。

具体特性:进一步描述了核心特性的具体行为;

  • 移动性:某些设备具有移动性,这改变了对计算基础设施的标准看法。在任何情况下,移动性都需要动态拓扑和体系结构,因为具有特定功能的资源可以移动并提供动态的服务质量(Quality of Service,QoS)。

衍生特性:这些特性来自于前两者的聚合;

  • 去中心化:地理分布和大规模特征排除了集中式架构的可能性。去中心化是为了从边缘计算中获益,否则将会出现与云计算相同的问题。去中心化对资源编排和通信提出了挑战,因为这些过程产生的决策和消息需要在组件之间高效地传播和管理。

  • 自发性:来自开放系统与多租户/多所有者组织的结合,受到一些基础设施组件移动性的影响。通常情况下,计算环境的组件可以意外连接和断开,无论如何,它都妨碍了资源的最佳利用,并且进一步危及了应用程序的总体性能以及系统的整体安全性。为系统的动态性带来了另一个维度,在应用程序、用户和环境之外,现在基础设施也是动态的。因此,应对自发性的弹性机制至关重要。

  • 高度互联:这一特征源自地理分布、去中心化、大规模和多租户/多所有者特征。设备被纠缠在一起以提供特定服务,因此它们之间的互连依赖关系复杂化了对它们之间影响的理解。如果管理不当,这可能导致意想不到的行为和一系列故障级联,但如果管理得当,这个特性可以为系统提供鲁棒性,因为它可以成为冗余的源头。

  • 动态性:动态的基础设施行为对于互联网分布式系统来说是新颖的,它需要一套新的方法和技术来实现和接受这种动态性。

  • 复杂性:可以认为是所有前述特征的结果。(1)系统特征的细微差别可能导致非常不同的情景,这意味着在没有适当考虑整个系统的情况下做出决策可能是危险的。(2)故障可能以级联方式传播,一旦开始传播,以反应性方式解决它们将会代价高昂。(3)理解系统的内在逻辑和关系可能是复杂的,并且需要特定的工具和方法。

挑战

分布式计算连续体和边缘计算面临着来自多个方面的复杂性,这些复杂性需要被有效地管理,以确保应用程序能够如期运行。

威胁存在于传统网络边界内外,因此在分布式计算连续体中建立可信度是至关重要的挑战之一。

唯一的解决途径是将自适应智能引入计算平台中。这是实现智能边缘的关键,能够让系统具备自我调整和适应的能力。

MAPE-K模式

自适应智能指的是系统具有能力在不断变化的环境中自适应并表现出高效的行为。在分布式计算连续体中,系统可能会面临各种变化,例如网络条件的波动、资源的动态分配等。自适应智能使系统能够及时地感知这些变化并相应地调整自己的行为,以保持系统的高效性和性能。因此关注自适应系统,其管理通常遵循MAPE-K模式。

MAPE-K模式是自适应系统中常用的一种范式,用于描述系统的自我调节机制。MAPE-K模式包括四个主要组件:监控(Monitor)、分析(Analyze)、计划(Plan)和执行(Execute),以及一个附加的知识(Knowledge)组件。这些组件描述了系统如何感知环境的变化、分析这些变化、制定适应性策略,并最终执行这些策略以保持系统性能。

  • 监控(Monitoring):负责与传感器交互并处理获取的数据。

  • 分析(Analyze):旨在理解被管理系统的当前情况和需求。

  • 计划(Plan):制定执行所需的行动以保持满足所有需求。

  • 执行(Execute):与被管理系统的执行器交互,修改系统的必要方面。

  • 知识(Knowledge):作为一个共享块,为其他模块提供完成任务所需的见解。

该模式在管理系统和被管理系统之间提供了清晰的分离,并且由于其块定义而提供了更好的模块化功能。

  • 环境管理:由于环境是不确定性的主要来源之一,需要明确地对其进行管理。因此,在管理系统中添加了使用传感器和执行器来影响环境的功能。

  • 学习模块:由于系统规模庞大且复杂,需要明确从运行时经验中学习。考虑到机器学习技术的进步及其适用性,因此,提出了将学习功能纳入到MAPE-K模式中的建议,并将其作为一个学习(learn)模块加以体现。

  • 通信模块:由于系统数据量巨大且异构性,需要添加一个通信(communicate)模块来确保通信技术和方法与系统的能力相符合。

  • 通信和学习模块都没有显式地连接到任何原始的MAPE-K模块。它们被概念化为任何其他模块都可以利用的模块。意味着这允许任何块使用学习技术来提高其性能,可靠性等。类似地,任何块都可以使用通信来与另一个系统通信。

可以从进化的角度来理解系统是如何适应其环境特征的。系统通常是其所处环境的局部模型,通过观察系统的行为,可以理解其所在环境的特征。 此外,持续存在的系统则是最优地对其局部环境进行建模的系统。

目标1:将边缘计算纳入基线

以下三种技术是实现从自治云系统向联合利用云和边缘资源的系统过渡的候选技术

1、DeepSLOs

Deep Service-Level Objectives(DeepSLOs)是服务水平目标(SLOs)的扩展,将SLOs扩展为一组层次结构化的SLOs,旨在更全面地捕捉和衡量服务的质量和性能。传统的SLOs通常关注于表面层面的指标,如请求响应时间、可用性等,而DeepSLOs则进一步深入到服务的内部工作机制,可以涵盖诸如服务的内部延迟、资源利用率、服务的吞吐量、数据一致性等更深层次的指标。通过这种方式,DeepSLOs可以提供更全面、更准确地了解服务的运行情况,从而更好地支持决策制定、故障排除和性能优化。在大规模、复杂的系统中,采用DeepSLOs可以帮助组织更好地管理其服务,并确保其满足用户的期望和需求。

其中底层的SLOs映射低级要求(如CPU或内存使用率),而随着向更高层次的DeepSLO移动,要求的抽象级别也相应增加,如成本效率。

DeepSLO为DCCS带来的的新特性

  • 单个DeepSLO可以管理系统的自治组件:DeepSLOs允许系统的不同组件通过管理各自的SLOs来实现自主性。这意味着每个组件可以根据其自身的需求和目标制定和调整自己的SLOs,并根据这些SLOs采取相应的行动,而不需要全局的控制。

  • 不同抽象级别之间存在内部关系:DeepSLOs被设计为一种层次结构,不同抽象级别之间存在内部关系。这些内部关系可以是水平的,即在同一抽象级别上的不同SLOs之间的关系,也可以是垂直的,即不同抽象级别之间的关系。这些关系有助于描述系统中的因果行为。

  • 用一组DeepSLOs描述完整的DCCS:DCCS可以被描述为一组DeepSLOs的集合,这些DeepSLOs在最高抽象级别上连接在一起。这种结构允许不同的组件共享主要目标,并且随着信息向更低的抽象级别传递,每个组件都可以根据其内在需求和能力来处理这些目标。

几个DeepSLO只能通过它们的顶级抽象连接来管理整个应用程序,它们的结构和连接顶级指标的能力提供了应对DCCSs的去中心化和地理分布的手段。

DeepSLOs与MAPE-K模式的关系:DeepSLOs主要集中在监控(monitor)模块中,因为它们具有跟踪系统各个层次的指标的能力。此外,它们还提供了关于聚合和抽象所需指标的知识,以达到所有必要的抽象级别。DeepSLOs还与通信(communication)模块相关联,因为它们定义了需要在不同实体之间通信的数据,以确保整个系统的正确管理。

在云计算中,每个SLO通常与一个弹性策略相关联;一旦SLO违规,就会触发相应的弹性策略。然而在讨论的这种新范式中,可能同时存在多个SLO违规,而可能的弹性策略及其后果属于一个更大的空间。将系统的弹性策略与SLOs解耦,因为它可能不再是一对一的关系。

2、Operational Equilibrium(运行平衡)
  • SLOs和DeepSLOs的驱动因素:传统上,SLOs和DeepSLOs是通过固定的阈值驱动的,只有在被管理的应用程序发生重大变化时才会更改。然而,在分布式计算连续体中,由于底层基础设施的动态性,这些阈值也会受到当前配置的影响。

  • 弹性策略的管理:在边缘和云端执行相同推断函数的弹性策略需要不同的阈值。因此,运行平衡允许我们根据基础设施配置描述和调整一组管理SLO行为的阈值,使得基础设施的行为不仅取决于应用程序的要求,也取决于基础设施本身的特性和配置的影响。

运行平衡与MAPE-K模式的关系:运行平衡的概念属于MAPE-K模式中的分析(analyze)模块。它能够评估系统的状态。运行平衡可以想象成一个组合信号,总结了系统的状态,但同时考虑了其当前的配置。换句话说,运行平衡反映了系统在其当前配置下的整体状态。

运行平衡可以被视为系统状态的一种描述,而DeepSLOs则是一种用于定义和管理服务质量的框架。运行平衡可能会受到DeepSLOs的影响,因为DeepSLOs中定义的指标和要求可以影响系统的行为和配置。

3、Elasticity Strategies(弹性策略)

云计算根据特定需求调整分配给每个特定工作负载的资源的能力称为弹性。

  • 弹性策略的复杂性:传统的云计算中主要有三种弹性策略,即纵向扩展、横向扩展和迁移任务。然而在分布式计算连续体中,系统的复杂性要求更加精细化的弹性策略定义,能够实际改变系统的行为和架构。

  • 任务和责任的转移:分布式计算连续体中,一些任务和责任可以从云端移动到边缘,反之亦然,这意味着需要修改网络连接和系统的其他组件来适应这种变化。因为在不同的计算节点之间转移任务和责任,可能涉及到重新配置网络连接、调整数据传输机制、更新软件组件等操作。

  • 对系统行为的准确建模:分布式计算连续体的复杂性需要对系统进行精确的建模,精确的建模可以帮助预测弹性策略对系统的影响,从而更有效地管理系统。

  • 模型化弹性策略:一些研究正在积极地利用基于机器学习模型的弹性策略,相比之下,采取反应式和非模型化的方法可能导致意外的结果,因为这种方法无法充分理解系统的复杂性和变化。同时需要将弹性策略建模为能够修改系统结构和配置的函数,并提供关于系统行为的预测。也就是说将弹性策略抽象为可以自动调整系统参数、配置或资源分配的算法或模型,使系统可以根据当前的工作负载、环境条件和其他因素进行自适应调整。此外这些模型化的弹性策略还应该能够提供关于系统行为的预测,以便在实施策略之前评估其可能的影响和结果。

弹性策略与MAPE-K模式的关系:弹性策略位于执行模块中,因为执行模块负责实际执行所选的弹性策略。

4、总结

DeepSLOs负责系统组件之间的结构和关系,为应用程序及其底层基础设施设置正确的钩子。运行平衡是对SLO定义的概念变体,根据基础设施和部署的应用组件之间的关系,可以实现不同的SLO描述。最后,DCCSs的弹性策略比云计算更为复杂和多样化,因此需要建立模型并采取积极的措施来应对系统的变化。

目标2:为边缘-云自治系统找到适当的结构

1、Markov Blanket(马尔科夫毯子)

马尔可夫毯子是一组变量,提供足够的信息来推断另一个变量的值。在贝叶斯网络中,马尔可夫毯子是被推断的变量周围的一组变量(由其父节点、子节点和其子节点的其他父节点组成)。被推断的变量只与其马尔可夫毯子中的变量在统计上相关,而与其他所有变量统计上无关。换句话说,给定了变量的马尔可夫毯子,就足以推断该变量的值,而不需要考虑其他变量的影响。

在自由能原理(the free energy principle ,FEP)的背景下,马尔可夫毯子具有本体论视角。Hipolito等人利用马尔可夫毯子的统计独立性特性,数学上发展了物与环境分离的概念,他们定义了四种类型的变量:

  • 马尔可夫毯子内部的变量:这些变量构成了系统的状态,即系统内部的基本元素。

  • 受外部变量影响的节点(感官状态):这些节点受外部环境的影响,同时也会影响系统的内部状态。它们用于感知外部环境并反映到系统内部。

  • 受内部状态影响的节点(行动状态):这些节点受系统内部状态的影响,并可以影响外部环境。它们用于执行系统内部的操作或行为。

  • 外部变量或环境:这些变量代表系统外部的环境因素,对系统的状态和行为产生影响。

马尔可夫毯子的视角提供了一种组件分类方法,适用于任何自适应系统,这使得我们能够形式化地建模与环境的交互。

马尔可夫毯子在构建时不受特定粒度的限制,即不受系统尺度的限制。这意味着可以在系统的不同尺度上构建马尔可夫毯子,而且无论是在系统的整体层面还是在更细粒度的组件层面,马尔可夫毯子都能提供相同的结构和信息。因此,无论系统的规模是大还是小,都可以使用相同的方法和技术来构建和利用马尔可夫毯子。

考虑到系统组件之间的条件独立性,给系统带来了过滤的能力。简单地说,条件独立性意味着在给定一些条件下,某些组件之间的关系与其他组件无关,因此可以将注意力集中在那些直接影响正在分析的系统部分的组件上,从而有效地减轻了系统分析过程中的规模问题。

马尔科夫毯子与MAPE-K模式的关系:一方面,它是知识的一部分,因为它包含了系统的表示。另一方面,它可以是分析块的一部分。马尔可夫毯子的概率概念允许我们推断系统的状态变量,而无需直接观察这些变量。在处理高级抽象和分散系统时,通常无法直接观察到系统的所有状态变量,因为系统可能非常庞大或高度分散。通过利用马尔可夫毯子的概率性质,我们可以在不直接观察变量的情况下获得关于系统状态的信息,

2、GKR

【论文】A.-L. Kalouli and R. Crouch, “GKR: The graphical knowledge representation for semantic parsing,” in Proc. Workshop Comput. Semantics Events Roles (SemBEaR), 2018, pp. 27–37.

  • GKR是从原始数据中提取的知识,并将其结构化为包含实体和关系的图形表示。

  • 表示的质量取决于其泛化知识的能力,即能否将具体情况推广到更普遍的情况。换句话说,表示的质量取决于它能否捕捉到数据中的一般模式和普适规律,而不仅仅是特定的案例或情景。

  • 传统方法通常将GKR用于云计算中的数据分析,例如知识表示和本体工程(GKR被用来表示和组织从原始数据中提取出的知识,以便构建知识图谱或本体。这些知识图谱或本体可以帮助理解数据之间的关系,支持语义推理和知识管理,从而为云计算系统提供更有效的数据处理和管理),或者监控系统性能(GKR可以用于监控和管理云计算系统的性能。通过将系统中的各种组件和资源以图形结构的形式表示出来,可以更清晰地了解系统的整体状态和性能表现)。

  • GKR可以帮助控制云计算系统及其资源。通过在图形中表示系统的各个组件和资源以及它们之间的关系,可以更好地监管和管理系统的运行状态和资源分配。此外, GKR还可以用于检查系统中未被发现的约束条件。通过对系统进行建模并表示为图形结构,可以更容易地识别潜在的约束条件或限制。

GKR与MAPE-K模式的关系:GKR被设想为知识和分析模块的一部分。在知识模块中,由于其跟踪功能依赖关系和资源可用性的能力,信息对任何其他模块都有帮助。GKR检测故障和检查流程的能力是分析模块内部的需求之一。

3、Semantic Communication(语义通信)
  • 语义通信的概念: 语义通信被视为从香农的通信思想中的一个必要演进,不再将重点放在在接收器中准确地复制发送器的数据上,而是在丰富数据中加入有意义的信息,以便接收器更好地处理和理解接收到的信息。

  • 示例: 最简单的语义通信示例是向数据添加时间戳,使接收器能够根据其新鲜程度决定如何处理它。

  • 技术要求: 语义通信需要结合编码器和解码器来提取消息中嵌入的信息。

  • 应用于分布式计算连续体系统: 该技术可用于将系统状态信息嵌入组件发送的消息中,从而避免为DCCSs开发整个管理网络覆盖层的需要。具体来说,它强调了通过将系统状态信息直接嵌入到组件发送的消息中,从而避免了需要为分布式计算连续体系统开发整个管理网络覆盖层的必要性。这意味着接收器可以直接从消息中提取系统状态信息,而不需要额外的网络层来传输或处理此信息。这种方法有助于简化系统架构,并减少系统的复杂性和开发成本。

语义通信与MAPE-K模式的关系:语义通信与通信模块相关联,这种丰富通信信息的能力需要开发特定的组件来对信息进行编码和解码。

4、总结

马尔可夫毯子技术旨在为系统的任何组件提供固定的本体结构,无论其粒度如何。GKR是一组工具,可用于获取描述系统的马尔可夫毯子,并且通过其分析,它们还可以帮助检测系统中的罕见故障和缺陷。最后,语义通信为所有这些组件添加了通信状态信息的能力,创建了一个虚拟的通信覆盖层,可以被诸如DeepSLO之类的技术使用,以提取评估系统状态所需的数据。

目标3:为DCCS提供了进行复杂决策的能力

1、Generative Models(生成模型)
  • 生成模型是关于变量联合分布的统计模型,用于表示观测变量和目标变量之间的关系。在DCCSs中,使用生成模型可以对环境或系统复杂组件进行建模,特别是当它们只能部分观测时。具体的生成模型方法包括生成对抗网络(GANs)、变分自编码器(VAEs)以及基于能量(energy-based)的方法。

  • 另一种生成模型基于马尔可夫链( Markov chains),在云环境中已经成功应用。例如,它们可以用于通过马尔可夫到达过程对云工作负载进行建模,这是连续时间马尔可夫链(CTMCs)的扩展。此外,一些研究使用马尔可夫决策过程(MDPs)来模拟云计算的弹性特性。

  • 由于DCCSs的去中心化、地理分布或环境无法完全观测,观察到所有变量的不可能性限制了开发模型的能力。生成模型可以利用可观察到的数据来预测系统组件的行为,并据此采取相应的行动。换句话说,即使无法观测到系统的所有变量,生成模型也能够利用可用的信息来做出推断,从而帮助管理系统更好地理解和应对系统的动态行为。

生成模型与MAPE-K模式的关系:属于知识模块,生成模型产生知识用于管理系统。

2、Causal Inference(因果推理)

因果推理致力于描述一组变量之间的因果关系。Pearl和Mackenzie的工作(The Book of Why: The New Science of Cause and Effect)建立了因果推理的数学框架,允许从数据中揭示变量之间的因果关系。观察数据通常不足以提供因果知识,因此需要进行实验来提取完整的因果知识。Pearl和Mackenzie的书中描述了三个因果层次:

  • 观察层次:在这个层次上,研究者观察到自然环境中发生的事件和变量之间的关系,但没有进行干预或控制。因果查询通常涉及对观察到的现象进行解释,以理解它们之间的因果关系。

  • 干预层次:在干预层次上,研究者通过实验或其他方式对某些变量进行干预或控制,以观察这些干预如何影响其他变量的行为。这种层次的因果查询通常涉及研究干预的效果,以确定原因与结果之间的关系。

  • 反事实层次:在这个层次上,研究者提出一种假设情境,即在已经观察到的情况下,如果某些事件或变量发生了不同的情况,会产生什么样的结果。这种层次的因果查询通常涉及对已知情况的“假设性回溯”,以确定假设情境下的因果关系。

因果图通常用来表示这种知识,它是从贝叶斯概率表示演变而来,用于模拟两个节点之间的因果关系。深度学习方法也正在开发中,以利用因果关系来帮助模拟情况。在分布式计算连续体中,因果推理可以:

  • 监控驱动:利用因果推断进行监控,可以确保只跟踪系统中的相关方面,从而提高监控的有效性和效率。

  • 异常跟踪:通过利用因果图,可以将异常跟踪到其因果根源,帮助识别和理解系统中的异常事件。

  • 弹性策略分析:因果推断的能力可以分析行为如何影响系统,因此可以在使用弹性策略之前对其进行分析,从而更好地了解其可能的影响和后果。

因果推理与MAPE-K模式的关系:因果推理属于知识和分析模块的一部分,因为因果图存储了系统关系的信息,因果推理可以分析运行时的情况和行为。

3、总结

生成模型能够对系统组件的行为进行建模。大多数技术采用概率方法,包括使用深度神经网络,如GANs,或不同类型的马尔可夫链。因果推断也采用概率方法,更侧重于系统组件之间的关系。因此,通过结合这两种方法并利用已开发的系统结构,我们可以实现优化的组织,并为所有组件和关系提供预测能力。

目标4:实现元模型

目标旨在将分布式计算连续体(DCCSs)抽象为超越其组件和关系的实体,将系统视为具有整体目标的实体,而不仅仅是优化特定组件的性能。

1、FEP

【论文】K. Friston, J. Kilner, and L. Harrison, “A free energy principle for the brain,” J. Physiol. Paris, vol. 100,nos. 1–3, pp. 70–87, Jul. 2006, doi: 10.1016/j. jphysparis.2006.10.001.

  • 普遍适用性:认知科学研究表明,大脑作为一个复杂自适应系统遵循FEP。进一步的研究表明,FEP的适用性扩展到了任何复杂自适应系统。

  • FEP强调了自适应系统在预期环境观察和实际观察之间最小化差异的重要性。通过这种方式,系统不断改进其对环境的认知,通过比较预期观察和实际观察来逐渐减少其内部模型与真实环境之间的差距。这意味着系统必须具备对环境及其组成部分的生成模型,以便预测未来的观察结果并与实际观察进行比较。

  • 通过FEP框架,可以嵌入系统范围的策略并对其进行分析,以进一步优化系统的行为(也就是说系统可以利用FEP的理论基础来设计和实施策略,以最小化预期观察与实际观察之间的差异,从而使系统更好地适应和响应其环境)。此外,FEP还引出了一个重要的推论,即主动推理,其中系统必须采取行动来适应环境并尽量减少意外发生的情况。

  • 若系统遵循FEP,能更好地理解和预测共享资源的其他系统的行为,促进更顺畅的资源管理和关系维护。相较于以目标为导向的行为,FEP更注重系统在环境中的行为改进,减少了组件或系统之间为资源而竞争的可能性。通过考虑更广泛的环境和资源利用情况,而非竞争性地优化特定指标,有望实现整体系统优化。

FEP与MAPE-K模式的关系:FEP与知识块相关联。管理系统可以利用FEP来了解自身最合适的行为,或者帮助确定共享分布式计算连续体中其他系统的预期行为。

2、Global Workspace Theory (GWT,全局工作空间理论)
  • GWT:一种认知神经科学理论,提出大脑是一个计算模型,整合不同来源的信息,形成对环境的内部表征,在一个“全局神经元工作区”(global neuronal workspace)中处理并向全局传播结论,使该系统成为“有意识的”。

  • global latent workspace:一些研究者建议使用深度学习技术创建一个“全局潜在工作空间”(global latent workspace),以代表GWT;另一些研究者则提出在多智能体系统中使用共享的全局工作空间来协调神经网络模块。

  • 注意力机制:通常使用注意力机制作为基石,使系统能够动态地突出显示关键的输入组件。

  • 在DCCS中的应用:GWT提供了一个框架,将不同系统组件的输入整合起来,通过注意力机制选择和总结最有价值的信息,从而进行系统范围的决策。

GWT与MAPE-K模式的关系:GWT将出现在通信和分析模块中。在通信中,GWT让组件通过更高级的抽象信息协调决策制定(意味着它允许组件之间以更高层次的概念进行交流和协作,从而更有效地共享关键信息)。在分析阶段,GWT还有助于获得对环境的全局和全面的理解,创建一个系统级的视角,为分析提供有价值的功能。

3、总结

FEP的目标是利用系统及其环境的生成模型,来优化系统与环境之间的整体互动。这种方法侧重于通过预测和模拟,改进系统如何理解和反应于其所处的环境。GWT提出了一种系统化的理论,用于分析系统组件的不同视角,以构建系统全局的视角。GWT重在理解系统各部分的视点,以整合成一个全面的系统观。

终身学习策略

策略从一开始就考虑了系统的行动能力,尤其是当弹性策略被扩展到边缘计算时。核心内容是利用系统的(元)模型来采取行动,通过对结果的学习来改进这些模型,实现持续的进步和优化。

1、Deep RL(DRL)

DRL是一个结合了强化学习(RL)和神经网络的机器学习分支。

DRL的显著优势

  • 不需要预定的数据集进行系统训练,与其他机器学习方法(如监督学习或非监督学习)不同。

  • 通过考虑利用或探索算法,并结合之前的最优决策,使用试错方法提供最佳决策。

    • 利用(Exploitation):基于过去的经验和所学知识(例如之前的最优决策)来选择当前认为最佳的动作(倾向于重复已知的行为,最大化即时回报)。

    • 探索(Exploration):环境可能会发生变化,或者可能存在尚未发现的、能产生更大回报的策略。探索帮助系统避免陷入局部最优解,而是向全局最优解前进。

    • 代理(或模型)不断在利用与探索之间权衡,借此试错,以此来不断地学习和适应。也就是说DRL系统不仅仅重复它们已知的最佳行为,而且还能够探索新的策略,这对于处理复杂和变化的环境是至关重要的,

  • 与传统的强化学习不同,DRL不需要额外空间来维护一个Q-表,也不需要计算与每个状态相关的所有Q值。相反,它使用经验回放缓冲区来代替Q-表。

DRL被用来解决DCCSs的各种挑战,特别是在边缘层面。这些挑战包括资源管理、计算/服务卸载、任务迁移、缓存管理、移动设备的轨迹控制、性能优化等。还有助于从边缘层的学习中为DCCSs开发可扩展的弹性库。

总的来说,DRL提供无需预先定义数据集的学习能力,并利用经验回放机制来优化性能和资源管理。

DRL与MAPE-K模式的关系:DRL参与MAPE-K架构的整个决策循环,包括学习(Learn)、分析(Analyze)、计划(Plan)和执行(Execute)环节。

2、Distributed Learning(分布式学习)

在分布式学习的背景下,联邦学习(FL)是目前最重要的技术。

联邦学习的核心

  • 分布式优化:FL专注于如何在大规模机器学习(ML)中发展分布式优化方法。

  • 隐私保护机制:FL实现了一套隐私保护机制,确保数据隐私在联邦设置的特定界限内受到保护。

  • 网络范围内的单一模型学习:FL的目标是学习一个全网络范围内的单一模型,该模型在本地进行训练,仅与中央服务器交换中间、周期性和更高级别的抽象更新。这种方法通过交换抽象更新而不是原始数据,保证了算法计算的分布式和数据隐私。使得从法律或隐私受限的数据源合成知识成为可能,否则这些数据源不会被利用。

  • 潜在地更可靠的模型:通过从多个数据源组合知识,FL允许系统开发出潜在地更可靠的模型。

FL在DCCSs中的应用

  • 提升模型:在DCCSs中,分布式学习技术对于改进描述系统和环境的模型至关重要。

  • 数据保留在本地:保持数据在本地可以最小化网络拥塞,并将隐私作为这些系统的基石。

DRL与MAPE-K模式的关系:主要影响学习和通信模块。因为分布式学习通常需要特定的通信设置来在其学习组件之间进行交互。学习得到的结果需要被嵌入到知识(Knowledge)模块中,这样DCCS中的所有模型都会根据新获得的学习进行更新。

3、总结

分布式学习提供了在去中心化环境中实施学习技术的基础,使得其他技术能够在分布式和去中心化的环境下得到应用。而强化学习则是实现行为优化的综合方法。

将系统转化为现实的考虑因素

1、Elastic Dimensions: Resources, Quality, and Cost(弹性维度:资源、质量和成本)

资源维度:

  • 指的是托管应用程序所需的基础设施。

  • 在云计算中,资源通常被视为大规模、虚拟化、均质且无限的。

  • 在DCCSs中,某些资源可能是稀缺的或特定于某个应用程序的,这需要特别考虑,因为这关乎基础设施资源的特性。

质量维度:

  • 衡量应用程序输出的一个维度。

  • 它不是传统意义上的服务质量(QoS)或用户体验质量(QoE),而是一个通过结合QoS和QoE来定义性能的抽象概念。

  • 例如,流媒体视频的分辨率可以根据环境的当前状态进行调整,作为一个具体示例。

成本维度:

  • 提供了系统状态的商业视角,允许就其他变量开展权衡。

  • 通过考虑成本,可以制定出与资源和质量相平衡的策略。

三维弹性策略的应用:

  • 使用这三个弹性维度来表示DCCSs沿袭了之前关于云计算和弹性策略的研究。

  • 这种高级抽象的管理方式带来了多种好处,比如从商业角度看待系统管理,或者开发能够同时考虑这三个维度的全面弹性策略。

  • Murturi和Dustdar的研究工作特别考虑了针对部署在边缘资源上的应用程序的三维弹性策略。(I. Murturi and S. Dustdar, “DECENT: A decentralized configurator for controlling elasticity in dynamic edge networks,” ACM Trans. Internet Technol., vol. 22, no. 3, pp. 1–21, Apr. 2022, doi: 10.1145/3530692)

大规模、异质性和多租户/多所有权的特征使得分布式计算连续体受益于高级抽象,高级抽象有助于不同系统组件之间的理解和共享。

Elastic Dimensions: Resources, Quality, and Cost与MAPE-K模式的关系:分析模块利用高级抽象(例如资源、质量和成本)来理解系统状态和高级需求。

2、Explainability(可解释性)

可解释性人工智能(XAI):

  • XAI旨在应用机器学习方法和技术,使人类专家能够理解模型的结果。通过检查哪些模型输入导致特定输出而得出解释。

  • XAI方法分类:内在的(模型本身即可解释)和后设的(在训练好的模型之上提供解释)。

  • XAI目标多样性:可以是特征总结统计或可视化,也可以是显示模型内部机制或寻找代表性数据点。

  • XAI方法可以是特定于模型的,也可以是与模型无关的,提供全局解释(解释整个模型行为)或局部解释(针对单一预测)。

在分布式计算连续体系统(DCCSs)的自适应管理中,解释性、透明性和责任制可以帮助理解系统组件或整个系统是如何做出决策和预测的。这种理解可以带来更高层次的知识,并对更好地沟通系统行为、增加信任以及支持用户评估决策产生积极影响。

解释性在处理多租户和多所有权系统中起着关键作用。它为确定和追踪责任提供了一个框架,从而支持所有利益相关方之间的可信通信。

Explainability与MAPE-K模式的关系:解释性需要在通信块中考虑,因为它影响利益相关方之间沟通的方式和内容。解释性是系统知识的一部分,因为它可以解答关于系统以某种方式运行的原因。

3、Zero Trust(零信任)

传统安全方法:

  • 侧重于通过应用加密技术或基于边界的安全方法来保护敏感资源,确保只有被信任的实体可以访问一个安全的领域。

  • 基于边界的安全方法通过控制访问点来授予或拒绝请求者(如用户、设备、软件组件等)的访问权限,这些权限基于凭证或证书认证。

  • 一旦请求者通过验证,他们就可以访问内部资源,并且一旦在网络边界内,就始终被视为可信对等体。这种方法往往忽略了可能由网络内的可信对等体产生的威胁(例如,攻击者可能已经窃取了可信对等体的用户凭证或设备)。

零信任安全模型:

  • 是一种创新的方法,旨在提高分布式计算环境中的安全性和可信度。零信任强调的是保护个别的数字资产而不是整个网络或领域。

  • 在零信任模型中,不假设任何隐含的信任,不管对等体是外部的还是内部的实体,它们总是被视为不可信的。更具体地说,每次对数字资产的访问都需要进行验证,且授予的访问权限始终尽可能的最小化。

零信任与MAPE-K模式的关系:影响通信模块和分析模块。零信任方法要求在不同设备、系统组件或利益相关者之间实现安全和可信的通信。零信任还需要对组件和用户行为进行分析,因此它也将影响架构中的分析模块。

4、总结

弹性维度提供了一个共同的基础,便于在涉及多个利益相关者时分析和协商系统状态。在涉及不同利益相关者的情况下,对这些大型且复杂的系统进行解释和审计是必须的。否则,实现责任归属将是不可能的。任何网络物理系统都需要强烈考虑安全性和隐私。由于分布式云计算系统的特点,零信任安全模型被视为最佳选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值