HSD算法

最新推荐文章于 2024-10-24 15:50:57 发布

azeyeazeye

最新推荐文章于 2024-10-24 15:50:57 发布

阅读量418

点赞数

文章标签：分层强化

本文链接：https://blog.youkuaiyun.com/azeyeazeye/article/details/115303362

版权

该博客介绍了HSD提出的分层多智能体强化学习（MARL）方法，采用完全合作的CTDE框架。智能体学习结合内在和外在奖励的潜在技能进行合作。算法包含上下两层，上层策略选择技能优化团队奖励，下层策略学习选择原始动作以优化下层奖励。通过双层优化问题来协调两个层次的学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HSD

所提方法是什么

相关资料

论文链接：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Hierarchical
代码地址：
算法地址https://github.com/011235813/hierarchical-marl

所提方法是什么

提出了一种完全合作的分层MARL方法，算法为CTDE框架。智能体学会利用内在和外在奖励结合的潜在技能进行合作。假设所有的智能体都有相同的观测空间和动作空间；每个智能体根据个人的观测采取个人的动作。定义了带有技能发现的分层MARL的目标，并描述为解决优化问题的方法。

假设两层MARL，有 $N$ 个智能体， $z^{n} \in \mathcal{Z}$ 表示隐藏变量，每一个对应一个技能。 $\mathcal{Z}$ 用one-hot编码，将 $\mathcal{Z}$ 推广为一个学习的连续嵌入空间（不明白）， $\mathcal{Z}$ 为上级策略 $\mu^{n}: O \mapsto\mathcal{Z}, \forall n \in[N]$ 的动作空间。 $\mu^{n}$ 为智能体局部观测到技能的映射。每次 $z^{n}$ 的选择都持续进行 $t_{\mathrm{seg}}$ 时间步长，令 $t_{\mathrm{seg}}$ 表示一个episode，一共有K个时间点进行上层技能的选择。以选定的潜在技能为条件，并给予智能体局部观测，然后下层的政策 $\pi^{n}: O \times \mathcal{Z} \mapsto \mathcal{A}$ 输出一个原始动作。每个 $z^{n} \in \mathcal{Z}$ ，和隐藏条件 $\pi^{n}\left(\cdot ; z^{n}\right)$ 是一个技能。在上层， $\boldsymbol{\mu}$ 学会选择技能来优化外部团队奖励函数 $\mathcal{S} \times\{\mathcal{A}\}_{n=1}^{N} \mapsto \mathbb{R}$ 。在下层，通过优化下层奖励 $R_{L}$ ， $\left\{\pi^{n}\right\}_{n=1}^{N}$ 学习选择原始动作来产生有用和可解码的动作。结合这两个层次的学习，将分层MARL视为一个双层优化问题：
$\begin{array}{l} \max _{\mu, \pi} \mathbb{E}_{\mathbf{z} \sim \mu, P}\left[\mathbb{E}_{s_{t}, a_{t} \sim \pi, P}\left[\sum_{t=1}^{T} \gamma^{t} R\left(s_{t}, \mathbf{a}_{t}\right)\right]\right] \\ \pi^{n} \in \underset{\pi}{\operatorname{argmax}} \mathbb{E}_{\mathbf{z} \sim \mu, P}\left[\sum_{k=1}^{K} \mathbb{E}_{\tau_{k}^{n} \sim \pi, P}\left[R_{L}\left(z_{k}^{n}, \tau_{k}^{n}\right)\right]\right], \forall n \in[N] \end{array}$
其中 $R_{L}\left(z^{n}, \tau^{n}\right):=\sum_{\left(s_{t}, a_{t}\right) \in \tau^{n}} R_{L}\left(z^{n}, s_{t}, a_{t}\right)$ 表示智能体n沿轨迹获得的下层奖励的总和。