经验适配器:用于持续任务规划的预训练语言模型适配方法
持续任务规划与经验适配器概述
传统的任务规划侧重于单个任务,而持续任务规划强调过去经验和先前任务反馈对后续任务的重要性。为了实现高效的持续任务规划,我们提出了经验适配器(Experience Adapter),它能够在持续任务规划环境中持续收集经验,并在后续任务规划中利用这些经验,而无需重新训练模型。
经验适配器主要由三个组件构成:
1. 基于预训练语言模型(PLM)的策略网络 :负责整体规划。
2. 记忆适配器 :持续收集环境观察信息。
3. 规则适配器 :确保规划者的行为符合人类反馈规则。
基于PLM的策略网络
近期的研究尝试将预训练语言模型(PLM)作为任务规划的骨干网络。这些PLM在大量无监督文本语料上进行训练,蕴含了丰富的常识信息,有研究表明它们具备作为长期规划策略网络的潜力。
在本方法中,我们采用LID作为基于PLM的策略网络。LID是基于GPT - 2的模型,在规划数据集上进行了微调。具体而言,LID可参数化为π(at + 1 | st),其中当前状态st包括任务目标g、历史动作ht和部分观察ot。LID将观察、目标和历史动作转换为单词序列,再由PLM进行分词,最后对生成的词元进行平均以进行动作预测。基于PLM的策略网络具有常识理解和逻辑推理能力,在单个任务规划方面表现出良好的潜力。
记忆适配器
虽然我们选择LID作为基于PLM的策略网络,但该模型主要关注单个任务的规划,无法有效利用从
超级会员免费看
订阅专栏 解锁全文
540

被折叠的 条评论
为什么被折叠?



