无监督RL：PAE: Reinforcement Learning from External Knowledge for Efficient Exploration

最新推荐文章于 2025-11-26 15:49:07 发布

原创

最新推荐文章于 2025-11-26 15:49:07 发布 · 1.3k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

文章介绍了一种名为PAE的算法，它利用预训练模型的外部知识帮助智能体高效探索和任务执行。通过集成Planner的知识对齐、Actor的技能控制和评估器的内在奖励，PAE实现了跨模态融合、知识与状态增强和复杂任务分层掌握。

ICLR 2024
paper

Intro

文章提出的算法Planner-Actor-Evaluator(PAE)利用预训练模型所涵盖的外部知识帮助智能体高效探索与样本利用。PAE集成了Planner的知识状态对齐机制、Actor的互信息技能控制和评估器的自适应内在探索奖励，以实现1)有效的跨模态信息融合，2)知识与状态之间的联系增强，3)复杂任务的分层掌握。
在这里插入图片描述

Method

Planner 配备了状态-知识对齐机制。这种机制使 Planner 能够访问外部知识源并检索与当前状态一致的合适知识。这种对齐的知识逐渐提供给 Actor，增加了复杂性。Actor 利用 Planner 提供的状态信息和外部知识进行联合推理。它包含一个交叉注意力机制，允许 Actor 精确地关注关键状态和外部知识特征。此外，Actor 使用判别网络来反转规划器的指导，加强状态和知识之间的联系。评估者根据 Planner 提供的外部知识的质量和 Actor 的推理有效性来计算内在奖励。这些内在奖励通过强化学习方法，指导Planner和Actor的独立更新。

Planner

Planner的policy表示为 $\pi_{p}(k|s_{0},\mathcal{K};\theta)$ ，输入状态以及知识集合，预测符合的片段知识 $k\in K$ 。每一个episode开始时，Planner 都会为actor提供预测新的知识，直至 Actor 达到由知识指导的内在目标后改变。同时，只有当 Actor 使用提供的知识完成任务时，Planner 才会收到奖励。
在这里插入图片描述

为了捕捉环境与知识中的隐含信息，分别通过encoder进行编码，其中环境状态还嵌入位置信息

$\hat{\mathbf{s}}_0=\mathrm{Conv}(s_0)+\mathbf{E}_{pos},\quad s_0\in\mathbb{R}^{HW\times C}\quad\hat{\mathbf{s}}_0,\mathbf{E}_{pos}\in\mathbb{R}^{HW\times d_s},$
知识的embedding首先采用Bert进行特征提取，在经过线性层映射得到编码后的知识特征:
$\hat{\mathbf{k}}=[\hat{k}^{(1)},\hat{k}^{(2)},\ldots,\hat{k}^{(n)}]=\mathrm{Proj}(\mathrm{LM}([k^{(1)},k^{(2)},\ldots,k^{(n)}])),\quad\hat{\mathbf{k}}\in\mathbb{R}^{n\times d_{k}},$