40、第一人称视角中奖励对象的评论家引导分割

最新推荐文章于 2025-12-02 12:07:20 发布

c6d7e8f9g

最新推荐文章于 2025-12-02 12:07:20 发布

阅读量78

点赞数

CC 4.0 BY-SA版权

分类专栏：解读《KI 2021：人工智能的进展》文章标签：评论家模型沙漏模型奖励对象分割

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c6d7e8f9g/article/details/149374352

解读《KI 2021：人工智能的进展》专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

第一人称视角中奖励对象的评论家引导分割

方法

我们的方法主要分为两个步骤：首先训练一个评论家模型来预测图像的折扣奖励，然后训练一个沙漏模型（Hourglass model）来推断奖励对象的分割掩码，同时持续训练评论家模型。整体架构基于两个子模块：
- 评论家网络：用于预测给定图像的折扣奖励。
- 沙漏模型：为图像中的奖励对象生成分割掩码。

这些掩码具有特殊的性质：当用于替换高评论家分数图像的部分时，会降低预测分数；当用于将这些部分注入低评论家分数图像时，会提高预测分数。通过这种方式，沙漏模型学会分割奖励对象。

我们在MineRL 2020竞赛的第一人称Minecraft环境中评估该方法。使用的模仿学习数据库包含人类玩家的记录数据，我们仅使用图像和记录的稀疏奖励信号来训练模型。

训练流程

训练分为两个阶段：
1. 阶段一：初始评论家训练
- 训练评论家模型直接预测64×64×3 RGB单图像观测状态的时间折扣奖励值。
- 使用数据集情节中的时间折扣奖励作为监督训练信号，均方误差作为损失函数。
- 训练收敛后，使用评论家将数据库分为高评论家值图像A和低评论家值图像B，用于阶段二。
2. 阶段二：分割训练
- 阶段二又分为两个子阶段 ：
- 阶段2.1 ：将图像通过分割模型生成掩码。
- 阶段2.2 ：使用该掩码交换图像对中的像素，并将合并后的图像通过评论家

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。