40、第一人称视角中奖励对象的评论家引导分割

第一人称视角中奖励对象的评论家引导分割

方法

我们的方法主要分为两个步骤:首先训练一个评论家模型来预测图像的折扣奖励,然后训练一个沙漏模型(Hourglass model)来推断奖励对象的分割掩码,同时持续训练评论家模型。整体架构基于两个子模块:
- 评论家网络:用于预测给定图像的折扣奖励。
- 沙漏模型:为图像中的奖励对象生成分割掩码。

这些掩码具有特殊的性质:当用于替换高评论家分数图像的部分时,会降低预测分数;当用于将这些部分注入低评论家分数图像时,会提高预测分数。通过这种方式,沙漏模型学会分割奖励对象。

我们在MineRL 2020竞赛的第一人称Minecraft环境中评估该方法。使用的模仿学习数据库包含人类玩家的记录数据,我们仅使用图像和记录的稀疏奖励信号来训练模型。

训练流程

训练分为两个阶段:
1. 阶段一:初始评论家训练
- 训练评论家模型直接预测64×64×3 RGB单图像观测状态的时间折扣奖励值。
- 使用数据集情节中的时间折扣奖励作为监督训练信号,均方误差作为损失函数。
- 训练收敛后,使用评论家将数据库分为高评论家值图像A和低评论家值图像B,用于阶段二。
2. 阶段二:分割训练
- 阶段二又分为两个子阶段
- 阶段2.1 :将图像通过分割模型生成掩码。
- 阶段2.2 :使用该掩码交换图像对中的像素,并将合并后的图像通过评论家

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值