41、合作式多智能体强化学习中的奖励机器综合

最新推荐文章于 2025-09-27 11:26:49 发布

原创最新推荐文章于 2025-09-27 11:26:49 发布 · 29 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#多智能体环境 # 奖励机器 # 多智能体强化学习

多智能体系统的前沿探索专栏收录该内容

67 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

合作式多智能体强化学习中的奖励机器综合

在多智能体系统的研究中，多智能体环境、奖励机器、多智能体强化学习以及交替时间时态逻辑等概念至关重要，它们为解决多智能体协作问题提供了理论基础和方法。

1. 多智能体环境（MAE）

多智能体环境（MAE）定义了智能体行动的底层环境。一个包含 $n$ 个智能体的多智能体环境是一个元组 $E = \langle Agt, S_1, \ldots, S_n, A_1, \ldots, A_n, Pr, (Prop_i) {i\in Agt}, Val\rangle$，具体解释如下：
- $Agt$：是一个包含 $n$ 个智能体的非空有限集合。
- $S_i$：是智能体 $i$ 的有限状态集合。所有状态集合的笛卡尔积构成联合状态集合 $S = S_1 \times \cdots \times S_n$。
- $A_i$：是智能体 $i$ 的有限动作集合。所有动作集合的笛卡尔积构成联合动作集合 $A = A_1 \times \cdots \times A_n$。
- $Pr : S \times A \times S \to \Delta(S)$：是联合状态转移概率分布，$\Delta(S)$ 是 $S$ 上所有概率分布的集合。$Pr(s’|s, a)$ 表示通过执行联合动作 $a \in A$ 从联合状态 $s \in S$ 转移到联合状态 $s’ \in S$ 的概率。
- $(Prop_i) {i\in Agt}$：是智能体 $i$ 可“观察”到的命题符号集合，$Prop := \bigcup_{i\in Agt} Prop_i$ 是所有可观察命题的集合。
- $Val : Prop