41、合作式多智能体强化学习中的奖励机器综合

合作式多智能体强化学习中的奖励机器综合

在多智能体系统的研究中,多智能体环境、奖励机器、多智能体强化学习以及交替时间时态逻辑等概念至关重要,它们为解决多智能体协作问题提供了理论基础和方法。

1. 多智能体环境(MAE)

多智能体环境(MAE)定义了智能体行动的底层环境。一个包含 $n$ 个智能体的多智能体环境是一个元组 $E = \langle Agt, S_1, \ldots, S_n, A_1, \ldots, A_n, Pr, (Prop_i) {i\in Agt}, Val\rangle$,具体解释如下:
- $Agt$:是一个包含 $n$ 个智能体的非空有限集合。
- $S_i$:是智能体 $i$ 的有限状态集合。所有状态集合的笛卡尔积构成联合状态集合 $S = S_1 \times \cdots \times S_n$。
- $A_i$:是智能体 $i$ 的有限动作集合。所有动作集合的笛卡尔积构成联合动作集合 $A = A_1 \times \cdots \times A_n$。
- $Pr : S \times A \times S \to \Delta(S)$:是联合状态转移概率分布,$\Delta(S)$ 是 $S$ 上所有概率分布的集合。$Pr(s’|s, a)$ 表示通过执行联合动作 $a \in A$ 从联合状态 $s \in S$ 转移到联合状态 $s’ \in S$ 的概率。
- $(Prop_i)
{i\in Agt}$:是智能体 $i$ 可“观察”到的命题符号集合,$Prop := \bigcup_{i\in Agt} Prop_i$ 是所有可观察命题的集合。
- $Val : Prop

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值