44、通过深度强化学习集成分布式组件系统

最新推荐文章于 2025-10-05 12:31:23 发布

mmm90

最新推荐文章于 2025-10-05 12:31:23 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏： AI与现实的鸿沟文章标签：深度强化学习多智能体系统分布式组件

本文链接：https://blog.youkuaiyun.com/mmm90/article/details/152645596

AI与现实的鸿沟专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

通过深度强化学习集成分布式组件系统

1. 引言

在系统开发过程中，常将系统任务划分为不同组件协同工作。这些组件可能由不同团队内部开发，也可能外包给其他软件公司或采用现成的元素。如今，从规范直接自动构建系统组件的研究日益增多，基于自然语言需求自动合成代码也逐渐成为现实。

然而，由不同团队使用不同方法开发的并发组件构建系统时，需要某种控制手段来优化组合行为。目标是避免因组件间缺乏对彼此当前状态的了解，导致大量交互尝试失败。

本工作旨在为多组件交互的系统（多智能体系统）提供分布式控制。组件内部结构未知，可视为黑盒，每个进程仅了解与其他进程的交互类型。建议组件设计时具备基于深度学习的本地控制机制，学习过程仅使用组件本地观察到的信息。目标是选择有效的开放式学习架构，优化多智能体系统的联合执行。具体目标是最小化多智能体系统中进程间的失败交互次数，更广泛的目标是最大化每个进程（组件）中每种动作类型的累积奖励。

由于每个组件将系统其余部分视为可交互的黑盒，采用强化学习方法，基于对集成系统的观察合成控制。由于组件独立开发，训练时每个组件仅能访问本地信息，可看作是多智能体强化学习（MARL）的一种变体，采用深度多智能体强化学习，由训练好的神经网络控制组件。

开发方法分两步：
- 第一步考虑具有并发同步组件的简化模型，专注于选择深度学习架构和参数，并与相关实验结果对比。该模型中，系统组件与黑盒环境交互，控制仅施加于系统组件，环境组件不可控。目标是最小化系统提供导致失败交互的动作次数。基于近端策略优化（PPO）算法设计了替代的深度强化学习方法，将循环神经网络（RNN）与PPO网络架构集成，以捕捉执行的长期历史，实验结果优于以往尝试。
- 第二步

会员秒杀 ¥9.9 重磅福利

超级会员免费看