【多智能体强化学习】经典论文COMA:Counterfactual Multi-Agent Policy Gradients

        这篇论文最主要的贡献就是提出了:反事实基线(counterfactual line)一种用于解决MARL中信用分配的方法。

        此前的方法中使用 g = \nabla_{\theta} \pi \log \pi(u | \tau_{at}) (r + \gamma V(s_{t+1}) - V(s_t)),用于对网络参数进行更新,但是这个方法并没有考虑到个体行动对总体的影响,因为对于所有agent这个V都是相同。

        而这个反事实基线就是用于评估个体行动对总体影响的,具体来说这个反事实基线就是针对于与单个智能体,你把除了这个智能体以外的智能体行动固定住,然后这个智能体执行除了原来动作以外的可执行动作,计算中心Q的期望,计算得到的期望就是反事实基线。

        也就是  \sum_{u' \in \mathcal{U}} \pi_a(u'| \tau_a) Q(s, (u-a, u'))

        那么得到了反事实基线有什么用呢?答案是它可以与全局的Q作差就能得到优势函数,然后根据策略梯度来更新参数

        A_a(s, u) = Q(s, u) - \sum_{u' \in \mathcal{U}} \pi_a(u'| \tau_a) Q(s, (u-a, u'))

g = \mathbb{E}_{\pi} \left[ \sum_a \nabla_{\theta} \log \pi_a(u_a | \tau_a) A_a(s, u) \right]

        如图为COMA的网络结构,为了更加高效地计算反事实基线,critic网络的输入包括其它智能体的动作 ,全局状态 ,该智能体的局部观测 ,该智能体的ID,以及上一时刻所有智能体的动作 。这样在critic网络的输出端就能够直接得到该智能体各个动作的反事实Q值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值