多智能体强化学习(四)多智能体RL

本文探讨了多智能体强化学习中的核心概念,包括随机博弈的定义,基于价值和策略的MARL方法,纳什均衡的求解,以及特殊类型的随机策略,如团队游戏和部分可观测设置。理解这些概念有助于设计和优化多智能体环境下的协作和决策策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


在多智能体场景中,就像在单智能体场景中一样,每个智能体都在尝试通过试错程序来解决顺序决策问题。不同的是,环境状态的演变和每个智能体收到的奖励功能现在由所有智能体的联合行动决定(见图3)。因此,智能体不仅需要考虑环境,还需要考虑其他学习代理交互。一个涉及多个智能体的决策过程通常通过一个随机游戏来建模(沙普利,1953),也被称为马尔可夫游戏(利特曼,1994)。

1. 问题的公式:随机博弈

定义2(随机博弈)随机博弈可以看作是定义1中MDP的多人博弈扩展。因此,它也由一组关键元素定义, < N , S , A i { i ∈ 1 , … , N } , P , { R i } i ∈ { 1 , … , N } , γ > <N,\mathbb{S},{A^i}_{\{i∈{1,…,N}\}},P,\{R^i\}_{i∈{\{1,…,N\}}},γ> <NSAi{ i1N}P{ Ri}i{ 1N}γ>

  • N:智能体的数量,N=1退化为单智能体MDP,N>>2在本文称为多智能体情况。
  • S \mathbb S S:所有智能体共享的环境状态集。
  • A \mathbb A A::智能体 i i i的动作集。我们表示 A \mathbb A A:= A 1 \mathbb A^1 A1×···× A N \mathbb A^N AN
  • P : S × A × S → ∆ ( S ) P:\mathbb S×A ×\mathbb S→∆(\mathbb S) PS×A×S(S):对于每个时间步骤 t ∈ N t∈\mathbb N tN,给定智能体的联合动作为 a ∈ A a∈\mathbb A aA,在下一个时间步骤中从状态 s ∈ S s∈\mathbb S sS到状态 s ′ ∈ S s'∈\mathbb S sS的转换概率。
  • R i : S × A × S → R R^i:\mathbb S× \mathbb A× \mathbb S→\mathbb R RiS×A×SR:从 ( s , a ) (s,a) (sa) s ′ s' s转换的第 i i i个智能体返回的奖励函数标量值。奖励的绝对值一致受 R m a x R_{max} Rmax为界。
  • γ ∈ [ 0 , 1 ] γ∈[0,1] γ[0,1]是表示时间值的折扣系数。

当有必要区分智能体 i i i和所有其他 N − 1 N−1 N1的对手时,我们使用 ( ⋅ i , ⋅ − i ) (·^i, ·^{−i}) (i,i)(例如, a = ( a i , a − i ) ) a=(a^i, a^{−i})) a=(ai,ai))的上标。

最终,随机博弈(SG)作为一个框架,允许在决策场景中同时从智能体进行移动。该游戏可以按顺序描述如下:在每个时间步长 t t t中,环境都有一个状态 s t s_t st,并且给定 s t s_t st,每个智能体与所有其他智能体同时执行其操作 a t i a^i_t ati。所有智能体的联合行动使环境过渡到下一个状态 s t + 1 ∼ P ( ⋅ ∣ s t , a t ) s_{t+1}∼P(·|s_t,a_t) st+1Pstat;然后,环境决定了对每个智能体的即时奖励 R i ( s t 、 a t 、 s t + 1 ) R^i(s_t、a_t、s_{t+1}) Rist

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值