多智能体强化学习辅助的服务功能链
在当今网络环境中,多用户对网络资源的竞争和服务功能链(SFC)的部署是一个重要问题。本文将介绍多智能体强化学习在服务功能链部署中的应用,包括多层控制架构、马尔可夫博弈模型以及多智能体强化学习方法。
多层控制架构
考虑一个场景,多个网络用户希望从源到目的地建立服务功能链。每个用户控制器会根据其本地观察做出决策,从用户的角度考虑问题,争取局部最大利益。多个用户会竞争网络资源以满足他们的需求。
超级控制器会获取每个用户控制器的状态信息。基于所有用户控制器的当前策略,超级控制器会引导每个用户控制器优化策略,直到博弈收敛。
马尔可夫博弈模型
服务功能链可以被表述为马尔可夫决策过程(MDP)。当在状态 $s$ 执行动作 $a$ 时,预期的 $R_{ss’}^{a}$ 可以表示为:
[R_{ss’}^{a} = E{r_{t + 1}|s_{t} = s, a_{t} = a, s_{t + 1} = s’}]
在马尔可夫博弈中,每个用户按顺序进行操作。马尔可夫博弈可以表述为:
- 有限的用户集合 $\mathcal{N}$,每个用户 $i \in \mathcal{N}$ 有一个动作集 $W_{i}$。
- 状态空间 $S$,表示所有用户可能的环境。
- 一组动作 $a_{1}, a_{2}, \cdots, a_{N}$ 和观察 $o_{1}, o_{2}, \cdots, o_{N}$,其中 $N = |\mathcal{N}|$。
每个用户 $i$ 会使用转移概率 $P$ 来选择动作,$P(s_{i}’|s_{i}, W_{i})
超级会员免费看
订阅专栏 解锁全文
3091

被折叠的 条评论
为什么被折叠?



