sarl:Single Agent Reinforcement Learning, 单主体强化学习
marl:Multi Agent Reinforcement Learning, 多主体强化学习
先上结论:
不是,使用 sarl 可以解决你所说的 “场景中存在多个主体” 的问题。
示例
空口无凭,下面用一个场景来举例子说明此问题:
考虑车联网的场景,有多个车,多个信道,我们的目标就是决定每个车使用哪个信道。在相同信道上的多个车会相互干扰,相互干扰的车,若距离很近那么干扰会很大,干扰当然是越小越好,所以我们尽量不让距离近的车在一个信道上。
从上面的描述中我们可以知道一些基本信息:
- 车是主体(注意,这里的 “主体” 和 Agent 不是一回事,现在还没有提到 Agent,不要自动带入 Agent 的逻辑)
- 动作是信道的选择,可以用信道的标号表示信道。比如:车A选择了2号信道来进行数据传输
- 一辆车的动作会影响另一辆车的动作。比如:情况一:如果 车A 与 车B 很近,而A选择了2号信道,为了减少干扰,那么B就尽量不要选2号信道了(这个情况一后文也会用到)
- 奖励和干扰有关
方案:
1.SARL1
将多辆车(主体)作为Agent,因此当 Agent 在时间 t 从环境中获取