多智能体强化学习与机器教学:从理论到实践
1. 多智能体强化学习基础
多智能体强化学习(MARL)领域在理论铺垫之后,现在进入实践环节。我们将训练一个井字棋智能体,你可以在会议或课堂之余与它对战。
- 训练策略分类
- 独立学习 :分别训练各个智能体,将环境中的其他智能体视为环境的一部分。
- 集中训练与分散执行 :训练时有一个集中控制器使用多个智能体的信息,执行时智能体本地执行策略,不依赖集中机制。
一般来说,之前章节的算法都可用于多智能体场景的独立学习,这是专门的 MARL 算法的有力替代方案。
独立学习需要满足以下条件:
- 拥有包含多个智能体的环境。
- 维护支持智能体的策略。
- 合理分配环境产生的奖励给各个智能体。
幸运的是,RLlib 提供了多智能体环境来解决这些问题。
2. RLlib 多智能体环境
RLlib 的多智能体环境能灵活地与已知算法结合用于 MARL。其文档展示了与该环境类型兼容的算法,我们将使用 PPO 算法。
在使用 RLlib 时,我们训练的是策略而非直接训练智能体,智能体将映射到正在训练的策略以获取动作。
RLlib 多智能体环境训练循环的要求如下:
1. 带有对应 ID 的策略列表,这是要训练的内容。
2. 一个将给定智能体 ID 映射到策略 ID 的函数,
超级会员免费看
订阅专栏 解锁全文
1158

被折叠的 条评论
为什么被折叠?



