32、多智能体强化学习辅助的服务功能链

多智能体强化学习辅助的服务功能链

在当今网络环境中,多用户对网络资源的竞争和服务功能链(SFC)的部署是一个重要问题。本文将介绍多智能体强化学习在服务功能链部署中的应用,包括多层控制架构、马尔可夫博弈模型以及多智能体强化学习方法。

多层控制架构

考虑一个场景,多个网络用户希望从源到目的地建立服务功能链。每个用户控制器会根据其本地观察做出决策,从用户的角度考虑问题,争取局部最大利益。多个用户会竞争网络资源以满足他们的需求。

超级控制器会获取每个用户控制器的状态信息。基于所有用户控制器的当前策略,超级控制器会引导每个用户控制器优化策略,直到博弈收敛。

马尔可夫博弈模型

服务功能链可以被表述为马尔可夫决策过程(MDP)。当在状态 $s$ 执行动作 $a$ 时,预期的 $R_{ss’}^{a}$ 可以表示为:
[R_{ss’}^{a} = E{r_{t + 1}|s_{t} = s, a_{t} = a, s_{t + 1} = s’}]

在马尔可夫博弈中,每个用户按顺序进行操作。马尔可夫博弈可以表述为:
- 有限的用户集合 $\mathcal{N}$,每个用户 $i \in \mathcal{N}$ 有一个动作集 $W_{i}$。
- 状态空间 $S$,表示所有用户可能的环境。
- 一组动作 $a_{1}, a_{2}, \cdots, a_{N}$ 和观察 $o_{1}, o_{2}, \cdots, o_{N}$,其中 $N = |\mathcal{N}|$。

每个用户 $i$ 会使用转移概率 $P$ 来选择动作,$P(s_{i}’|s_{i}, W_{i})

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值