物流场景下合成 AI 图像分类训练数据的探索
1. 相关工作
合成驾驶场景的多种方法催生了不同应用的多个合成数据集,如驾驶场景、家居物品到机器人抓取等。一些数据集使研究人员能够开展与工业相关的箱式抓取任务或物体识别任务的研究。此前也有人采用合成数据生成方法,以实现工业环境中齿轮等部件的处理。
由于在这些领域取得了成功,可以推断,使用合成数据在高度多变的内部物流场景中训练物体识别器是一种可行的方法。常见的物体数据集可供多个用户使用,以实现与通用环境(如家居物品)相关的 AI 服务。然而,对于工业应用或数据集而言,这种通用性未必适用,因为它们处理的是特定环境中的非通用物体。因此,为了使合成训练数据方法具有更广泛的适用性,需要致力于使生成流程能够适应用户需求。
在大多数情况下,流程会将感兴趣的物体的 3D 模型放置在场景中,并渲染该场景以获取训练图像。通常,每次渲染过程中场景的创建和组合都会有所变化,例如在预定义的参数空间内改变物体的位置和方向。NVIDIA 深度学习数据合成器基于虚幻引擎 4 提供了一个数据创建工具,利用该工具创建了家居物体数据集 SIDOD 和 FAT。当与特定领域的建模环境或场景创建语法结合使用时,此类工具可用于为不同领域创建合成训练数据。类似的工具也可在 Unity 游戏引擎或开源工具 Blender 中找到。尽管这些工具便于对建模环境进行操作,但它们不会自动为新 3D 场景的创建提供语义信息,场景的语义表述大多由用户提供。
有些方法采用全自动且随机的前景和背景组合,而另一些方法则利用符合上下文的真实场景组合。在这两种情况下,都会创建一组规则,组合算法的实现基于这些规则。这些累积的规则和参数化被称为语法或模型,对于数据生成流程的创建至关重要。
超级会员免费看
订阅专栏 解锁全文
2847

被折叠的 条评论
为什么被折叠?



