牛津&Meta最新!PartGen:基于多视图扩散模型的多模态部件级3D生成和重建!

文章链接:https://arxiv.org/pdf/2412.18608
项目链接:https://silent-chen.github.io/PartGen/

总结速览

解决的问题
当前的3D生成与扫描技术能够生成具有高质量形状和纹理的3D资产,但这些资产通常是单一的、不具备结构的整体表示(如隐式神经场、高斯混合体或网格)。然而,专业应用与创意工作流中需要结构化的3D资产,这些资产由具有独立意义的部分组成,便于重用、编辑与动画制作。

提出的方案
本文提出了PartGen,能够将无结构的3D对象转化为具有语义意义的组成部分。方法分为两个关键阶段:

  • 部分分割:通过多视图扩散模型生成多个视角的一致分割图,将3D对象分割为多个部分。

  • 部分补全与重建:利用第二个多视图扩散模型补全各部分的遮挡区域,并通过3D重建网络生成完整的3D部件,确保部件间的无缝整合。

应用的技术

  • 多视图扩散模型:用于生成视角一致的分割图,并捕捉多种可能的分割方案,符合艺术家分割对象的习惯。

  • 生成式补全:通过上下文信息完成遮挡部件,甚至在信息缺失的情况下进行“合理幻觉”,生成完整的不可见部分。

  • 3D重建网络:将补全的视图转换为高质量的3D部件,实现模型的整体性和一致性。

达到的效果

  • 提升分割与重建质量:相比现有分割与部件提取baseline,PartGen在分割精度和部件完整性上表现出色。

  • 多输入支持:支持从文本、图像或无结构3D对象生成具有部分结构的3D资产。

  • 下游任务应用:支持3D部分编辑任务,例如部件替换、移除、独立编辑等,满足动画制作、游戏开发和机器人应用需求。

  • 语义一致性:生成的部件语义清晰,整体结构完整,为3D理解和空间智能提供支持。

方法

PartGen是一个能够将 3D 对象完全分解为完整 3D 部件的框架。每个部件都是独立的、可供人类理解的、自包含的元素,组成了 3D 对象的组合表示。PartGen 能够接受不同的输入模态(文本提示、图像提示或 3D 资产),并通过重新利用一个强大的多视角扩散模型来执行部件分割和补全任务。PartGen 的概述如下图 2 所示。

本节简要介绍了 3D 生成的多视角扩散模型背景,以及 PartGen 如何应用于文本、图像或 3D 模型输入。然后,描述了 PartGen 如何自动分割、补全和重建 3D 部件。

3D 生成的背景

多视角扩散模型方法通常采用两阶段的 3D 生成方法。

在第一阶段,给定一个提示 ,一个图像生成器 从不同的视角输出对象的多个 2D 视图。根据 的性质,

### 扩散模型在医学图像合成中的技术与应用 #### 背景介绍 扩散模型作为一种新兴的生成模型,已经在多个领域展示了卓越的能力。特别是在医学图像合成方面,这些模型能够通过学习复杂的分布来生成逼真的医学影像,从而辅助诊断、治疗规划其他临床应用场景。 #### 技术原理 扩散模型的核心在于逐步向输入数据添加噪声,并训练网络逆过程——即从含噪样本中恢复原始信号的过程。这一特性使得扩散模型特别适合用于处理高维且复杂结构的数据集,如CT扫描图或MRI切片[^1]。 #### 应用实例 - **多模态转换**:利用扩散模型可以实现不同成像模式之间的互转,比如将X光片转化为对应的核磁共振图像。这有助于医生更全面地理解病灶特征。 - **缺失区域补全**:当某些部位因遮挡或其他原因未能获得清晰成像时,基于扩散模型的方法可以帮助重建完整的解剖结构视图。 - **超分辨率重建**:提高低质量医学图片的空间分辨率,使细微病变更加明显可见,便于早期发现疾病迹象。 ```python import torch from diffusers import UNet2DModel, DDPMScheduler model = UNet2DModel.from_pretrained("path/to/pretrained/model") scheduler = DDPMScheduler(beta_start=0.00085, beta_end=0.012) def generate_medical_image(latent_noise): timesteps = scheduler.timesteps for i, t in enumerate(timesteps): with torch.no_grad(): noisy_residual = model(latent_noise, timestep=t).sample latent_noise = scheduler.step(noisy_residual, t, latent_noise).prev_sample return latent_noise ``` 此代码片段展示了一个简单的例子,说明如何使用预训练好的UNet架构DDPM调度器来进行医疗图像生成的任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值