HSD算法

该博客介绍了HSD提出的分层多智能体强化学习(MARL)方法,采用完全合作的CTDE框架。智能体学习结合内在和外在奖励的潜在技能进行合作。算法包含上下两层,上层策略选择技能优化团队奖励,下层策略学习选择原始动作以优化下层奖励。通过双层优化问题来协调两个层次的学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相关资料

  1. 论文链接:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Hierarchical
  2. 代码地址:
    算法地址https://github.com/011235813/hierarchical-marl

所提方法是什么

  提出了一种完全合作的分层MARL方法,算法为CTDE框架。智能体学会利用内在和外在奖励结合的潜在技能进行合作。假设所有的智能体都有相同的观测空间和动作空间;每个智能体根据个人的观测采取个人的动作。定义了带有技能发现的分层MARL的目标,并描述为解决优化问题的方法。

假设两层MARL,有 N N N个智能体, z n ∈ Z z^{n} \in \mathcal{Z} znZ表示隐藏变量,每一个对应一个技能。 Z \mathcal{Z} Z用one-hot编码,将 Z \mathcal{Z} Z推广为一个学习的连续嵌入空间(不明白), Z \mathcal{Z} Z为上级策略 μ n : O ↦ Z , ∀ n ∈ [ N ] \mu^{n}: O \mapsto\mathcal{Z}, \forall n \in[N] μn:OZ,n[N]的动作空间。 μ n \mu^{n} μn为智能体局部观测到技能的映射。每次 z n z^{n} zn的选择都持续进行 t s e g t_{\mathrm{seg}} tseg时间步长,令 T = K t s e g T=K t_{\mathrm{seg}} T=Ktseg表示一个episode,一共有K个时间点进行上层技能的选择。以选定的潜在技能为条件,并给予智能体局部观测,然后下层的政策 π n : O × Z ↦ A \pi^{n}: O \times \mathcal{Z} \mapsto \mathcal{A} πn:O×ZA输出一个原始动作。每个 z n ∈ Z z^{n} \in \mathcal{Z} znZ,和隐藏条件 π n ( ⋅ ; z n ) \pi^{n}\left(\cdot ; z^{n}\right) πn(;zn)是一个技能。在上层, μ \boldsymbol{\mu} μ学会选择技能来优化外部团队奖励函数 R : S × { A } n = 1 N ↦ R R: \mathcal{S} \times\{\mathcal{A}\}_{n=1}^{N} \mapsto \mathbb{R} R:S×{A}n=1NR。在下层,通过优化下层奖励 R L R_{L} RL { π n } n = 1 N \left\{\pi^{n}\right\}_{n=1}^{N} {πn}n=1N学习选择原始动作来产生有用和可解码的动作。结合这两个层次的学习,将分层MARL视为一个双层优化问题:
max ⁡ μ , π E z ∼ μ , P [ E s t , a t ∼ π , P [ ∑ t = 1 T γ t R ( s t , a t ) ] ] π n ∈ argmax ⁡ π E z ∼ μ , P [ ∑ k = 1 K E τ k n ∼ π , P [ R L ( z k n , τ k n ) ] ] , ∀ n ∈ [ N ] \begin{array}{l} \max _{\mu, \pi} \mathbb{E}_{\mathbf{z} \sim \mu, P}\left[\mathbb{E}_{s_{t}, a_{t} \sim \pi, P}\left[\sum_{t=1}^{T} \gamma^{t} R\left(s_{t}, \mathbf{a}_{t}\right)\right]\right] \\ \pi^{n} \in \underset{\pi}{\operatorname{argmax}} \mathbb{E}_{\mathbf{z} \sim \mu, P}\left[\sum_{k=1}^{K} \mathbb{E}_{\tau_{k}^{n} \sim \pi, P}\left[R_{L}\left(z_{k}^{n}, \tau_{k}^{n}\right)\right]\right], \forall n \in[N] \end{array} maxμ,πEzμ,P[Est,atπ,P[t=1TγtR(st,at)]]πnπargmaxEzμ,P[k=1KEτknπ,P[RL(zkn,τkn)]],n[N]
其中 R L ( z n , τ n ) : = ∑ ( s t , a t ) ∈ τ n R L ( z n , s t , a t ) R_{L}\left(z^{n}, \tau^{n}\right):=\sum_{\left(s_{t}, a_{t}\right) \in \tau^{n}} R_{L}\left(z^{n}, s_{t}, a_{t}\right) RL(zn,τn):=(st,at)τnRL(zn,st,at)表示智能体n沿轨迹获得的下层奖励的总和。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值