跨模态3D形状生成与操作:MM - VADs模型的创新应用
1. 相关工作概述
在多模态生成模型领域,众多研究致力于学习多种模态的联合分布 $p(x_0, \ldots, x_n)$,其中每个模态 $x_i$ 代表潜在信号的一种表示,如图像、文本等。多模态变分自编码器(Multi - modal VAEs)通过共同的潜在变量 $z \in Z$ 学习条件联合分布 $p_{\theta}(x_0, \ldots, x_n | z)$;而多模态生成对抗网络(Multi - modal GANs)在不假设多模态数据配对的情况下,通过跨模态共享潜在空间和模型参数来学习联合分布。这些多模态生成模型已在跨模态图像翻译和领域适应等方面得到广泛应用。
与上述工作类似,我们构建了一个通过共享潜在空间连接多种模态的多模态生成模型。不同的是,我们使用稀疏的2D输入(如涂鸦、草图)来生成和编辑3D形状,并基于变分自动解码器(VADs)构建了2D - 3D生成模型。已有研究表明,VADs在处理不完整数据的生成建模方面表现出色,我们进一步证明了多模态VADs(MM - VADs)非常适合从稀疏2D输入进行3D生成和操作的任务。
以下是与跨模态3D编辑和生成工作的比较:
| 方法 | 操作 - 形状 | 操作 - 颜色 | 生成 - 单视图 | 生成 - 部分视图 | 生成 - 少样本 |
| — | — | — | — | — | — |
| Sketch2Mesh | ✓ | ✗ | ✓ | ✗ | ✗ |
| DualSDF | ✓ | ✗ | ✗ | ✗ | ✗ |
| EditNeRF | ✓ | ✓ | ✗ | ✗ | ✗ |
| 我们的
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



