10、多智能体环境下的强化学习探索

多智能体环境下的强化学习探索

1 引言

学习是当今极具吸引力的开放性问题之一。以人类学习骑自行车为例,孩子最初坐在座位上没有反应,接着踩上踏板但骑行过慢导致自行车失去平衡而摔倒,通过这次经历,孩子明白要更快地蹬踏板以避免再次摔倒。这种通过与环境交互、根据反馈调整行为以最大化奖励的概念,在数学上由强化学习(Reinforcement Learning,RL)进行建模。

然而,人类和动物并非孤立存在,而是处于一个多实体相互作用的社会系统中。例如在股票市场中,个人购买股票的行为不仅会影响自身,还会对整个市场产生影响。博弈论(Game Theory)正是从数学角度对这种交互进行建模的科学。为了创建能够自主行动的系统,我们既需要研究如何构建自主学习的智能体(强化学习),也需要建模其如何受到周围其他实体的影响(博弈论)。多智能体强化学习(Multi-agent Reinforcement Learning,MARL)则是连接这两个领域的桥梁,它研究在包含多个实体的未知系统中进行学习的问题。

2 预备知识

2.1 (多智能体)强化学习

强化学习是一种通过试错进行顺序决策的框架。智能体与环境在一系列离散时间步中进行交互,这种交互由状态 (s)、动作 (a) 和奖励 (r) 三个组件描述。状态描述了智能体所感知到的环境的实际配置,动作是智能体做出的决策,环境会根据智能体的动作改变状态并给予奖励。

这种交互在数学上由马尔可夫决策过程(Markov Decision Process,MDP)进行描述,其定义为 (M = (S, A, P, R, γ, μ, H)),其中 (S) 和 (A) 分别是状态集和动作集,(P) 是采取动作从一

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值