文章链接:https://arxiv.org/pdf/2412.18608
项目链接:https://silent-chen.github.io/PartGen/
总结速览
解决的问题
当前的3D生成与扫描技术能够生成具有高质量形状和纹理的3D资产,但这些资产通常是单一的、不具备结构的整体表示(如隐式神经场、高斯混合体或网格)。然而,专业应用与创意工作流中需要结构化的3D资产,这些资产由具有独立意义的部分组成,便于重用、编辑与动画制作。
提出的方案
本文提出了PartGen,能够将无结构的3D对象转化为具有语义意义的组成部分。方法分为两个关键阶段:
-
部分分割:通过多视图扩散模型生成多个视角的一致分割图,将3D对象分割为多个部分。
-
部分补全与重建:利用第二个多视图扩散模型补全各部分的遮挡区域,并通过3D重建网络生成完整的3D部件,确保部件间的无缝整合。
应用的技术
-
多视图扩散模型:用于生成视角一致的分割图,并捕捉多种可能的分割方案,符合艺术家分割对象的习惯。
-
生成式补全:通过上下文信息完成遮挡部件,甚至在信息缺失的情况下进行“合理幻觉”,生成完整的不可见部分。
-
3D重建网络:将补全的视图转换为高质量的3D部件,实现模型的整体性和一致性。
达到的效果
-
提升分割与重建质量:相比现有分割与部件提取baseline,PartGen在分割精度和部件完整性上表现出色。
-
多输入支持:支持从文本、图像或无结构3D对象生成具有部分结构的3D资产。
-
下游任务应用:支持3D部分编辑任务,例如部件替换、移除、独立编辑等,满足动画制作、游戏开发和机器人应用需求。
-
语义一致性:生成的部件语义清晰,整体结构完整,为3D理解和空间智能提供支持。
方法
PartGen是一个能够将 3D 对象完全分解为完整 3D 部件的框架。每个部件都是独立的、可供人类理解的、自包含的元素,组成了 3D 对象的组合表示。PartGen 能够接受不同的输入模态(文本提示、图像提示或 3D 资产),并通过重新利用一个强大的多视角扩散模型来执行部件分割和补全任务。PartGen 的概述如下图 2 所示。
本节简要介绍了 3D 生成的多视角扩散模型背景,以及 PartGen 如何应用于文本、图像或 3D 模型输入。然后,描述了 PartGen 如何自动分割、补全和重建 3D 部件。
3D 生成的背景
多视角扩散模型方法通常采用两阶段的 3D 生成方法。
在第一阶段,给定一个提示 ,一个图像生成器 从不同的视角输出对象的多个 2D 视图。根据 的性质,