合作式多智能体强化学习中的奖励机器综合
在多智能体系统的研究中,多智能体环境、奖励机器、多智能体强化学习以及交替时间时态逻辑等概念至关重要,它们为解决多智能体协作问题提供了理论基础和方法。
1. 多智能体环境(MAE)
多智能体环境(MAE)定义了智能体行动的底层环境。一个包含 $n$ 个智能体的多智能体环境是一个元组 $E = \langle Agt, S_1, \ldots, S_n, A_1, \ldots, A_n, Pr, (Prop_i) {i\in Agt}, Val\rangle$,具体解释如下:
- $Agt$:是一个包含 $n$ 个智能体的非空有限集合。
- $S_i$:是智能体 $i$ 的有限状态集合。所有状态集合的笛卡尔积构成联合状态集合 $S = S_1 \times \cdots \times S_n$。
- $A_i$:是智能体 $i$ 的有限动作集合。所有动作集合的笛卡尔积构成联合动作集合 $A = A_1 \times \cdots \times A_n$。
- $Pr : S \times A \times S \to \Delta(S)$:是联合状态转移概率分布,$\Delta(S)$ 是 $S$ 上所有概率分布的集合。$Pr(s’|s, a)$ 表示通过执行联合动作 $a \in A$ 从联合状态 $s \in S$ 转移到联合状态 $s’ \in S$ 的概率。
- $(Prop_i) {i\in Agt}$:是智能体 $i$ 可“观察”到的命题符号集合,$Prop := \bigcup_{i\in Agt} Prop_i$ 是所有可观察命题的集合。
- $Val : Prop
超级会员免费看
订阅专栏 解锁全文
1184

被折叠的 条评论
为什么被折叠?



