多智能体强化学习(四)多智能体RL
在多智能体场景中,就像在单智能体场景中一样,每个智能体都在尝试通过试错程序来解决顺序决策问题。不同的是,环境状态的演变和每个智能体收到的奖励功能现在由所有智能体的联合行动决定(见图3)。因此,智能体不仅需要考虑环境,还需要考虑其他学习代理交互。一个涉及多个智能体的决策过程通常通过一个随机游戏来建模(沙普利,1953),也被称为马尔可夫游戏(利特曼,1994)。
1. 问题的公式:随机博弈
定义2(随机博弈)随机博弈可以看作是定义1中MDP的多人博弈扩展。因此,它也由一组关键元素定义, < N , S , A i { i ∈ 1 , … , N } , P , { R i } i ∈ { 1 , … , N } , γ > <N,\mathbb{S},{A^i}_{\{i∈{1,…,N}\}},P,\{R^i\}_{i∈{\{1,…,N\}}},γ> <N,S,Ai{ i∈1,…,N},P,{ Ri}i∈{ 1,…,N},γ>。
- N:智能体的数量,N=1退化为单智能体MDP,N>>2在本文称为多智能体情况。
- S \mathbb S S:所有智能体共享的环境状态集。
- A \mathbb A A::智能体 i i i的动作集。我们表示 A \mathbb A A:= A 1 \mathbb A^1 A1×···× A N \mathbb A^N AN。
- P : S × A × S → ∆ ( S ) P:\mathbb S×A ×\mathbb S→∆(\mathbb S) P:S×A×S→∆(S):对于每个时间步骤 t ∈ N t∈\mathbb N t∈N,给定智能体的联合动作为 a ∈ A a∈\mathbb A a∈A,在下一个时间步骤中从状态 s ∈ S s∈\mathbb S s∈S到状态 s ′ ∈ S s'∈\mathbb S s′∈S的转换概率。
- R i : S × A × S → R R^i:\mathbb S× \mathbb A× \mathbb S→\mathbb R Ri:S×A×S→R:从 ( s , a ) (s,a) (s,a)到 s ′ s' s′转换的第 i i i个智能体返回的奖励函数标量值。奖励的绝对值一致受 R m a x R_{max} Rmax为界。
- γ ∈ [ 0 , 1 ] γ∈[0,1] γ∈[0,1]是表示时间值的折扣系数。
当有必要区分智能体 i i i和所有其他 N − 1 N−1 N−1的对手时,我们使用 ( ⋅ i , ⋅ − i ) (·^i, ·^{−i}) (⋅i,⋅−i)(例如, a = ( a i , a − i ) ) a=(a^i, a^{−i})) a=(ai,a−i))的上标。
最终,随机博弈(SG)作为一个框架,允许在决策场景中同时从智能体进行移动。该游戏可以按顺序描述如下:在每个时间步长 t t t中,环境都有一个状态 s t s_t st,并且给定 s t s_t st,每个智能体与所有其他智能体同时执行其操作 a t i a^i_t ati。所有智能体的联合行动使环境过渡到下一个状态 s t + 1 ∼ P ( ⋅ ∣ s t , a t ) s_{t+1}∼P(·|s_t,a_t) st+1∼P(⋅∣st,at);然后,环境决定了对每个智能体的即时奖励 R i ( s t 、 a t 、 s t + 1 ) R^i(s_t、a_t、s_{t+1}) Ri(st、