分布式强化学习的分类

最新推荐文章于 2025-11-15 17:58:58 发布

原创

最新推荐文章于 2025-11-15 17:58:58 发布 · 6.6k 阅读

24 ·

CC 4.0 BY-SA版权

本文介绍了分布式强化学习的四种主要类型：集中式、独立式、群体式和社会式。集中式强化学习由中央学习单元负责全局协作；独立式强化学习中每个智能体自主学习；群体式学习考虑所有智能体的状态和动作，适用于小型系统；社会式强化学习结合社会模型，增强智能体间的协作和策略传播，有效解决冲突和信度分配问题。

根据智能体工作方式的不同，可以将分布式强化学习分为：集中式强化学习、独立强化学习、群体强化学习和社会强化学习。具体介绍如下：

1、集中式强化学习

集中式强化学习通常把整个多agent 系统的协作机制看成学习的目标, 承担学习任务的是一个全局性的中央学习单元, 这个学习单元以整个多agent 系统的整体状态为输人，以对各个agent 的动作指派为输出, 采用标准的强化学习方法进行学习, 逐渐形成一个最优的协作机制。集中式强化学习系统中的各个agent 都是“傻”agent, 它们不能执行学习任务, 而只能被动地执行学习结果。这类集中式强化学习通常用于调度问题，其体系结构如图所示

2、独立强化学习

独立强化学习中每个agent 都是独立的学习主体，它们分别学习对环境的响应策略和相互之间的协作策略，并对自己所感知到的环境状态选择一个获得回报最大的动作。独立强化学习中的agent 可能只考虑自己的状态而不关心其它agent的状态，选择动作时也只考虑自己的利益，agent从信度分配模块获得的强化信号只与自己的状态和动作相联系，所以进行学习时甚至可能忽视其它agent 的存在，认为只有自己在学习。相对于集中式强化学习，独立强化学习存在结构信度分配问题，其体系结构如图所示：