北大提出MMGDreamer!可控3D场景生成新SOTA!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

论文名:MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation

论文链接:https://arxiv.org/pdf/2502.05874

开源代码:https://yangzhifeio.github.io/project/MMGDreamer

导读

可控场景生成是指根据输入提示生成逼真的3D场景,并允许对这些场景中的特定物体进行精确控制和调整。它广泛应用于虚拟现实、室内设计和具身智能,提供沉浸式体验并增强决策过程。在这些应用中,场景图作为一种强大的工具,通过简洁地抽象场景上下文和物体之间的相互关系,实现直观的场景操作和生成。

简介

可控的3D场景生成在虚拟现实和室内设计中有着广泛的应用,生成的场景应在几何方面表现出高度的真实感和可控性。场景图提供了一种合适的数据表示方式,便于这些应用的实现。然而,当前基于图的场景生成方法局限于基于文本的输入,对灵活的用户输入适应性不足,阻碍了对物体几何形状的精确控制能力。为解决这一问题,我们提出了MMGDreamer,这是一种用于场景生成的双分支扩散模型,它结合了一种新颖的混合模态图、视觉增强模块和关系预测器。混合模态图允许物体节点整合文本和视觉模态,节点之间存在可选关系。它增强了对灵活用户输入的适应性,并能够对生成场景中物体的几何形状进行精细控制。视觉增强模块通过使用文本嵌入构建视觉表示,丰富了仅含文本节点的视觉保真度。此外,我们的关系预测器利用节点表示来推断节点之间缺失的关系,从而产生更连贯的场景布局。大量实验结果表明,MMGDreamer在物体几何形状控制方面表现出色,实现了最先进的场景生成性能。

<
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值