08MARL深度强化学习 independent learning

本文介绍了基于值的独立学习算法(如IDQN)在多智能体环境中的局限,如经验回收池的问题。提出了解决方案,如小经验回收池、重要性采样和考虑其他智能体策略的指纹。此外,独立策略梯度方法如A2C在多智能体onpolicy的优势也被讨论,强调其在适应变化环境中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

记录independent learning算法的基础概念,使用一些RL算法训练多智能体


1、Independent Value-based Learning

基于值的独立学习算法:每个智能体根据自身的观测与动作学习价值函数,以IDQN为例,每个智能体根据自身的观测历史学习Q函数,智能体i的损失函数为:
在这里插入图片描述
总的损失函数就是将所有智能体的损失函数进行求和,优化过程为最小化总损失函数与每个智能体的损失函数
在这里插入图片描述
**replay buffer局限:**代表经验收集与再采样的过程,而在IDQN中存在一定问题,因为在多智能体环境中,每个智能体不仅被他们自身的观测与动作所决定,同时受到其他智能体的影响,因此每个智能体的观测与动作会依赖于其他智能体的策略,当采用经验回收池时,假设了经验随着时间具有相关性,而在多智能体环境中,这种相关性会快速过时

**举例解释:**在两个智能体学习围棋的任务中,智能体1采取了特定的策略,短期有较好的收益而长期属于弱策略,智能体2没有采用特定的策略,在刚开始的阶段智能体1会获得奖励而在经验池中存放数据,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值