构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统

1. 问题背景与建模:从自治调度到POMDP

1.1 自治调度问题与多智能体环境

在实际应用中(例如生产调度、资源分配等),多个自治决策单元(智能体)需要在一个共享的环境中协同工作,每个智能体只能获取局部信息(例如自身状态或部分环境观测),但它们的行为会相互影响。传统的单智能体强化学习(RL)模型难以直接适用于这种场景,因此需要多智能体强化学习(MARL)的方法。

1.2 将问题转化为部分可观测马尔可夫决策过程(POMDP)

由于每个智能体无法获得全局状态信息,而只能通过局部观测 oio_ioi 获取部分环境信息,因此整体问题可建模为部分可观测马尔可夫决策过程(POMDP)。在POMDP模型中:

  • 状态空间 S:环境的全局状态,但在实际训练和决策时并不可观测。
  • 观测空间 OiO_iOi:每个智能体 i 能够获得的观测信息 oi∈Oio_i \in O_ioiOi
  • 动作空间 AiA_iAi:每个智能体的动作集合。
  • 状态转移函数 T(s′∣s,a)T(s'|s, \mathbf{a})T(ss,a):给定当前全局状态 s 以及所有智能体的联合动作 a=(a1,…,aN)\mathbf{a}=(a_1,\dots,a_N)a=(a1,,aN),环境转移到下一个状态 s’ 的概率。
  • 奖励函数 R:全局奖励信号,反映了整个系统(所有智能体协同)的表现。

这样,尽管每个智能体只能基于其局部观测做决策,但整个系统仍遵循马尔可夫性质(在状态转移和奖励上),只不过智能体的可观测性受限。


2. 智能体的策略设计与局部观测

2.1 局部观测 oio_ioi 与策略参数化

对于每个智能体 i 来说,其基于局部观测 oio_ioi 采用参数化策略:

πi(oi;θi)\LARGE \pi_i(o_i; \theta_i)πi(oi;θi)

其中:

  • πi\pi_iπi 表示智能体 i 的策略,通常为概率分布,给定观测 oio_ioi 后输出在动作空间 AiA_iAi 上各动作的选择概率。
  • θi\theta_iθi 为策略参数,可以通过深度神经网络进行参数化表示(例如利用深度Q网络、策略梯度方法等)。

这种设计的主要意义在于:

  • 局部信息处理:智能体只依赖于自身局部信息进行决策,适应真实系统中信息不完全的情况。
  • 并行性与分布式执行:每个智能体独立决策,便于分布式系统部署。

2.2 数学建模与策略优化目标

每个智能体的目标是最大化其长期累计回报,而在协作任务中,往往设计全局奖励 RR 来驱动所有智能体朝着共同目标前进。联合策略的优化目标可写为:

 J(θ1,…,θN)=Eτ∼π1,…,πN[∑t=0TγtR(st,at)]\Large\ J(\theta_1, \do

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

由数入道

滴水助江海,心灯渡万世。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值