构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统

最新推荐文章于 2025-07-22 15:16:10 发布

由数入道

最新推荐文章于 2025-07-22 15:16:10 发布

阅读量1.3k

点赞数 17

CC 4.0 BY-SA版权

文章标签：分布式强化学习智能体

由数入道-易牧阳

本文链接：https://blog.youkuaiyun.com/cxr828/article/details/145420810

1. 问题背景与建模：从自治调度到POMDP

1.1 自治调度问题与多智能体环境

在实际应用中（例如生产调度、资源分配等），多个自治决策单元（智能体）需要在一个共享的环境中协同工作，每个智能体只能获取局部信息（例如自身状态或部分环境观测），但它们的行为会相互影响。传统的单智能体强化学习（RL）模型难以直接适用于这种场景，因此需要多智能体强化学习（MARL）的方法。

1.2 将问题转化为部分可观测马尔可夫决策过程（POMDP）

由于每个智能体无法获得全局状态信息，而只能通过局部观测 $o_i$ 获取部分环境信息，因此整体问题可建模为部分可观测马尔可夫决策过程（POMDP）。在POMDP模型中：

状态空间 S：环境的全局状态，但在实际训练和决策时并不可观测。
观测空间 $O_i$ ：每个智能体 i 能够获得的观测信息 $oi∈Oio_i \in O_i$ 。
动作空间 $A_i$ ：每个智能体的动作集合。
状态转移函数 $\mathbf{a})$ ：给定当前全局状态 s 以及所有智能体的联合动作 $a=(a1,…,aN)\mathbf{a}=(a_1,\dots,a_N)$ ，环境转移到下一个状态 s’ 的概率。
奖励函数 R：全局奖励信号，反映了整个系统（所有智能体协同）的表现。

这样，尽管每个智能体只能基于其局部观测做决策，但整个系统仍遵循马尔可夫性质（在状态转移和奖励上），只不过智能体的可观测性受限。

2. 智能体的策略设计与局部观测

2.1 局部观测 $o_i$ 与策略参数化

对于每个智能体 i 来说，其基于局部观测 $o_i$ 采用参数化策略：

$πi(oi;θi)\LARGE \pi_i(o_i; \theta_i)$

其中：

$πi\pi_i$ 表示智能体 i 的策略，通常为概率分布，给定观测 $o_i$ 后输出在动作空间 $A_i$ 上各动作的选择概率。
$θi\theta_i$ 为策略参数，可以通过深度神经网络进行参数化表示（例如利用深度Q网络、策略梯度方法等）。

这种设计的主要意义在于：

局部信息处理：智能体只依赖于自身局部信息进行决策，适应真实系统中信息不完全的情况。
并行性与分布式执行：每个智能体独立决策，便于分布式系统部署。

2.2 数学建模与策略优化目标

每个智能体的目标是最大化其长期累计回报，而在协作任务中，往往设计全局奖励 RR 来驱动所有智能体朝着共同目标前进。联合策略的优化目标可写为：

$J(θ1,…,θN)=Eτ∼π1,…,πN[∑t=0TγtR(st,at)]\Large\ J(\theta_1, \do$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

由数入道 滴水助江海，心灯渡万世。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。