无监督RL:PAE: Reinforcement Learning from External Knowledge for Efficient Exploration

文章介绍了一种名为PAE的算法,它利用预训练模型的外部知识帮助智能体高效探索和任务执行。通过集成Planner的知识对齐、Actor的技能控制和评估器的内在奖励,PAE实现了跨模态融合、知识与状态增强和复杂任务分层掌握。

ICLR 2024
paper

Intro

文章提出的算法Planner-Actor-Evaluator(PAE)利用预训练模型所涵盖的外部知识帮助智能体高效探索与样本利用。PAE集成了Planner的知识状态对齐机制、Actor的互信息技能控制和评估器的自适应内在探索奖励,以实现1)有效的跨模态信息融合,2)知识与状态之间的联系增强,3)复杂任务的分层掌握。
在这里插入图片描述

Method

Planner 配备了状态-知识对齐机制。这种机制使 Planner 能够访问外部知识源并检索与当前状态一致的合适知识。这种对齐的知识逐渐提供给 Actor,增加了复杂性。Actor 利用 Planner 提供的状态信息和外部知识进行联合推理。它包含一个交叉注意力机制,允许 Actor 精确地关注关键状态和外部知识特征。此外,Actor 使用判别网络来反转规划器的指导,加强状态和知识之间的联系。评估者根据 Planner 提供的外部知识的质量和 Actor 的推理有效性来计算内在奖励。这些内在奖励通过强化学习方法,指导Planner和Actor的独立更新。

Planner

Planner的policy表示为 π p ( k ∣ s 0 , K ; θ ) \pi_{p}(k|s_{0},\mathcal{K};\theta) πp(ks0,K;θ),输入状态以及知识集合,预测符合的片段知识 k ∈ K k\in K kK。每一个episode开始时,Planner 都会为actor提供预测新的知识,直至 Actor 达到由知识指导的内在目标后改变。同时,只有当 Actor 使用提供的知识完成任务时,Planner 才会收到奖励。
在这里插入图片描述

为了捕捉环境与知识中的隐含信息,分别通过encoder进行编码,其中环境状态还嵌入位置信息

s ^ 0 = C o n v ( s 0 ) + E p o s , s 0 ∈ R H W × C s ^ 0 , E p o s ∈ R H W × d s , \hat{\mathbf{s}}_0=\mathrm{Conv}(s_0)+\mathbf{E}_{pos},\quad s_0\in\mathbb{R}^{HW\times C}\quad\hat{\mathbf{s}}_0,\mathbf{E}_{pos}\in\mathbb{R}^{HW\times d_s}, s^0=Conv(s0)+Epos,s0RHW×Cs^0,EposRHW×ds,
知识的embedding首先采用Bert进行特征提取,在经过线性层映射得到编码后的知识特征:
k ^ = [ k ^ ( 1 ) , k ^ ( 2 ) , … , k ^ ( n ) ] = P r o j ( L M ( [ k ( 1 ) , k ( 2 ) , … , k ( n ) ] ) ) , k ^ ∈ R n × d k , \hat{\mathbf{k}}=[\hat{k}^{(1)},\hat{k}^{(2)},\ldots,\hat{k}^{(n)}]=\mathrm{Proj}(\mathrm{LM}([k^{(1)},k^{(2)},\ldots,k^{(n)}])),\quad\hat{\mathbf{k}}\in\mathbb{R}^{n\times d_{k}}, k^=[k^(1),k^(2),,k^(n)]=Proj(LM([k(1),k(2),

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值