离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战,仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,中山大学计算机学院、美团履约平台技术部开展了学术合作项目,并取得了一些的成果,希望分享给大家。
-
合作型马尔可夫博弈
-
定义与基本概念
-
IGM原则与值分解
-
离线MARL中的行为正则化马尔可夫博弈
-
-
样本内顺序策略优化
-
样本内顺序策略优化的数学推导
-
最大熵行为正则化马尔可夫博弈
-
-
算法细节
-
策略评估
-
策略改进
-
实际应用及实现细节
-
-
实验验证
-
桥博弈的实验结果
-
星际争霸II微操作基准测试的实验结果
-
消融研究
-
-
总结
离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。相比于单智能体情况,多智能体环境涉及到大规模的联合状态——动作空间和多智能体间的耦合行为,这给离线策略优化带来了额外的复杂性。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居、机器人协作、智能调度决策等方面展现了巨大的应用潜力。但是离线MARL较单智能体情况下更加复杂,其涉及庞大的联合状态-动作空间和多智能体间的复杂互动行为,这使得离线策略优化成为一项艰巨的任务。
离线MARL面临的主要挑战包括:一是如何有效应对分布偏移问题,即在策略评估过程中,分布外(OOD)样本可能导致误差积累;二是在多智能体环境下,协调多个智能体的行为显得尤为困难。现有的离线MARL方法尽管取得了一些进展,但仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,中山大学计算机学院、美团履约平台技术部开展了学术合作项目,联合提出了一种新颖的离线MARL算法——样本内顺序策略优化(In-Sample Sequential Policy Optimization, InSPO),该方法通过顺序更新每个智能体的策略,避免选择OOD联合动作,同时增强了智能体之间的协调性。
2024年12月11 日,中山大学计算机学院的刘宗凯、林谦、余超和伍夏威等学术界的专家和教授,跟美团技术团队联合发表了一篇技术论文《Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization》(论文下载)。研究团队的主要贡献在于提出了InSPO算法,该算法不仅避免了OOD联合动作,还通过探索行为策略中的低概率动作,解决了提前收敛到次优解的问题。理论上InSPO保证了策略的单调改进,并收敛到量化响应均衡(QRE)。实验结果表明,InSPO在多个离线MARL任务中表现出了显著的效果,与当前最先进的方法相比具有明显的优势。
合作型马尔可夫博弈
在理解离线多智能体强化学习(MARL)中的样本内顺序策略优化之前,首先需要了解合