10、多智能体环境下的强化学习探索

原创于 2025-10-12 13:28:33 发布 · 34 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#多智能体强化学习 #逆强化学习 #在线学习

前沿IT洞察：从理论到应用专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多智能体环境下的强化学习探索

1 引言

学习是当今极具吸引力的开放性问题之一。以人类学习骑自行车为例，孩子最初坐在座位上没有反应，接着踩上踏板但骑行过慢导致自行车失去平衡而摔倒，通过这次经历，孩子明白要更快地蹬踏板以避免再次摔倒。这种通过与环境交互、根据反馈调整行为以最大化奖励的概念，在数学上由强化学习（Reinforcement Learning，RL）进行建模。

然而，人类和动物并非孤立存在，而是处于一个多实体相互作用的社会系统中。例如在股票市场中，个人购买股票的行为不仅会影响自身，还会对整个市场产生影响。博弈论（Game Theory）正是从数学角度对这种交互进行建模的科学。为了创建能够自主行动的系统，我们既需要研究如何构建自主学习的智能体（强化学习），也需要建模其如何受到周围其他实体的影响（博弈论）。多智能体强化学习（Multi-agent Reinforcement Learning，MARL）则是连接这两个领域的桥梁，它研究在包含多个实体的未知系统中进行学习的问题。