[强化学习] 我的场景中有多个主体，那是不是就一定要用多智能体强化学习？

最新推荐文章于 2025-03-16 11:08:23 发布

Love_marginal

最新推荐文章于 2025-03-16 11:08:23 发布

阅读量1.1k

点赞数 1

分类专栏：强化学习通信

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_37495408/article/details/109676182

版权

本文探讨了单主体强化学习(SARL)与多主体强化学习(MARL)在车联网场景中决定车辆信道选择的策略差异。SARL假设每个车辆独立决策，而MARL则考虑了车辆间的交互影响。重点在于理解两者如何处理信息同步和干扰管理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sarl：Single Agent Reinforcement Learning, 单主体强化学习

marl：Multi Agent Reinforcement Learning, 多主体强化学习

先上结论：

不是，使用 sarl 可以解决你所说的 “场景中存在多个主体” 的问题。

示例

空口无凭，下面用一个场景来举例子说明此问题：

考虑车联网的场景，有多个车，多个信道，我们的目标就是决定每个车使用哪个信道。在相同信道上的多个车会相互干扰，相互干扰的车，若距离很近那么干扰会很大，干扰当然是越小越好，所以我们尽量不让距离近的车在一个信道上。

从上面的描述中我们可以知道一些基本信息：

车是主体（注意，这里的 “主体” 和 Agent 不是一回事，现在还没有提到 Agent，不要自动带入 Agent 的逻辑）
动作是信道的选择，可以用信道的标号表示信道。比如：车A选择了2号信道来进行数据传输
一辆车的动作会影响另一辆车的动作。比如：情况一：如果车A 与车B 很近，而A选择了2号信道，为了减少干扰，那么B就尽量不要选2号信道了（这个情况一后文也会用到）
奖励和干扰有关

方案：

~~1.SARL1~~

将多辆车（主体）作为Agent，因此当 Agent 在时间 t 从环境中获取

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。