多智能体环境下的强化学习探索
1 引言
学习是当今极具吸引力的开放性问题之一。以人类学习骑自行车为例,孩子最初坐在座位上没有反应,接着踩上踏板但骑行过慢导致自行车失去平衡而摔倒,通过这次经历,孩子明白要更快地蹬踏板以避免再次摔倒。这种通过与环境交互、根据反馈调整行为以最大化奖励的概念,在数学上由强化学习(Reinforcement Learning,RL)进行建模。
然而,人类和动物并非孤立存在,而是处于一个多实体相互作用的社会系统中。例如在股票市场中,个人购买股票的行为不仅会影响自身,还会对整个市场产生影响。博弈论(Game Theory)正是从数学角度对这种交互进行建模的科学。为了创建能够自主行动的系统,我们既需要研究如何构建自主学习的智能体(强化学习),也需要建模其如何受到周围其他实体的影响(博弈论)。多智能体强化学习(Multi-agent Reinforcement Learning,MARL)则是连接这两个领域的桥梁,它研究在包含多个实体的未知系统中进行学习的问题。
2 预备知识
2.1 (多智能体)强化学习
强化学习是一种通过试错进行顺序决策的框架。智能体与环境在一系列离散时间步中进行交互,这种交互由状态 (s)、动作 (a) 和奖励 (r) 三个组件描述。状态描述了智能体所感知到的环境的实际配置,动作是智能体做出的决策,环境会根据智能体的动作改变状态并给予奖励。
这种交互在数学上由马尔可夫决策过程(Markov Decision Process,MDP)进行描述,其定义为 (M = (S, A, P, R, γ, μ, H)),其中 (S) 和 (A) 分别是状态集和动作集,(P) 是采取动作从一
超级会员免费看
订阅专栏 解锁全文
2469

被折叠的 条评论
为什么被折叠?



