1. 问题背景与建模:从自治调度到POMDP
1.1 自治调度问题与多智能体环境
在实际应用中(例如生产调度、资源分配等),多个自治决策单元(智能体)需要在一个共享的环境中协同工作,每个智能体只能获取局部信息(例如自身状态或部分环境观测),但它们的行为会相互影响。传统的单智能体强化学习(RL)模型难以直接适用于这种场景,因此需要多智能体强化学习(MARL)的方法。
1.2 将问题转化为部分可观测马尔可夫决策过程(POMDP)
由于每个智能体无法获得全局状态信息,而只能通过局部观测 oio_ioi 获取部分环境信息,因此整体问题可建模为部分可观测马尔可夫决策过程(POMDP)。在POMDP模型中:
- 状态空间 S:环境的全局状态,但在实际训练和决策时并不可观测。
- 观测空间 OiO_iOi:每个智能体 i 能够获得的观测信息 oi∈Oio_i \in O_ioi∈Oi 。
- 动作空间 AiA_iAi:每个智能体的动作集合。
- 状态转移函数 T(s′∣s,a)T(s'|s, \mathbf{a})T(s′∣s,a):给定当前全局状态 s 以及所有智能体的联合动作 a=(a1,…,aN)\mathbf{a}=(a_1,\dots,a_N)a=(a1,…,aN),环境转移到下一个状态 s’ 的概率。
- 奖励函数 R:全局奖励信号,反映了整个系统(所有智能体协同)的表现。
这样,尽管每个智能体只能基于其局部观测做决策,但整个系统仍遵循马尔可夫性质(在状态转移和奖励上),只不过智能体的可观测性受限。
2. 智能体的策略设计与局部观测
2.1 局部观测 oio_ioi 与策略参数化
对于每个智能体 i 来说,其基于局部观测 oio_ioi 采用参数化策略:
πi(oi;θi)\LARGE \pi_i(o_i; \theta_i)πi(oi;θi)
其中:
- πi\pi_iπi 表示智能体 i 的策略,通常为概率分布,给定观测 oio_ioi 后输出在动作空间 AiA_iAi 上各动作的选择概率。
- θi\theta_iθi 为策略参数,可以通过深度神经网络进行参数化表示(例如利用深度Q网络、策略梯度方法等)。
这种设计的主要意义在于:
- 局部信息处理:智能体只依赖于自身局部信息进行决策,适应真实系统中信息不完全的情况。
- 并行性与分布式执行:每个智能体独立决策,便于分布式系统部署。
2.2 数学建模与策略优化目标
每个智能体的目标是最大化其长期累计回报,而在协作任务中,往往设计全局奖励 RR 来驱动所有智能体朝着共同目标前进。联合策略的优化目标可写为:
J(θ1,…,θN)=Eτ∼π1,…,πN[∑t=0TγtR(st,at)]\Large\ J(\theta_1, \do