第一人称视角中奖励对象的评论家引导分割
方法
我们的方法主要分为两个步骤:首先训练一个评论家模型来预测图像的折扣奖励,然后训练一个沙漏模型(Hourglass model)来推断奖励对象的分割掩码,同时持续训练评论家模型。整体架构基于两个子模块:
- 评论家网络:用于预测给定图像的折扣奖励。
- 沙漏模型:为图像中的奖励对象生成分割掩码。
这些掩码具有特殊的性质:当用于替换高评论家分数图像的部分时,会降低预测分数;当用于将这些部分注入低评论家分数图像时,会提高预测分数。通过这种方式,沙漏模型学会分割奖励对象。
我们在MineRL 2020竞赛的第一人称Minecraft环境中评估该方法。使用的模仿学习数据库包含人类玩家的记录数据,我们仅使用图像和记录的稀疏奖励信号来训练模型。
训练流程
训练分为两个阶段:
1. 阶段一:初始评论家训练
- 训练评论家模型直接预测64×64×3 RGB单图像观测状态的时间折扣奖励值。
- 使用数据集情节中的时间折扣奖励作为监督训练信号,均方误差作为损失函数。
- 训练收敛后,使用评论家将数据库分为高评论家值图像A和低评论家值图像B,用于阶段二。
2. 阶段二:分割训练
- 阶段二又分为两个子阶段 :
- 阶段2.1 :将图像通过分割模型生成掩码。
- 阶段2.2 :使用该掩码交换图像对中的像素,并将合并后的图像通过评论家