多智能体强化学习:技术与应用
1. 多智能体强化学习的关键技术
1.1 对手建模
多智能体问题的状态空间通常很大,以往的方法尝试用单智能体算法的改进形式来学习这个大空间。而另一种方法是通过在智能体中显式地建模对手行为来减小状态空间。对手模型可以指导智能体的决策,从而减少其需要遍历的状态空间。
- 减少状态空间的方法 :
- 假设智能体在一组固定策略之间切换。例如,切换智能体模型(SAM)使用贝叶斯网络从观察到的轨迹中学习对手模型。
- 深度强化开放网络(DRON)使用两个网络,一个学习Q值,另一个学习对手策略表示。
对手建模与心理理论密切相关。根据这一理论,人们会将信念、意图和情感等心理状态归因于他人,这有助于我们分析和预测他人的行为。基于这些概念,具有对手学习意识的学习(LOLA)可以预测对手的行为,概率递归推理(PR2)将自己和对手的行为建模为一个视角层次结构,递归推理已被证明可以带来更快的收敛速度和更好的性能。
1.2 通信
当我们显式地对智能体之间的通信进行建模时,就向模拟现实世界迈进了一步。一个基本问题是,在没有预定义通信协议的情况下,智能体之间的语言是如何出现的,以及语法和意义是如何从交互中演变而来的。
- 通信的基本方法 :
- 参考游戏:发送者发送两张图像和一条消息,接收者需要识别哪张图像是目标。
- 语言也会在更复杂的版本或智能体之间的谈
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



