北大提出MMGDreamer！可控3D场景生成新SOTA！

最新推荐文章于 2025-11-24 17:06:07 发布

原创

最新推荐文章于 2025-11-24 17:06:07 发布 · 999 阅读

·

25

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#3d #人工智能 #AI编程 #深度学习

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

论文名：MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation

论文链接：https://arxiv.org/pdf/2502.05874

开源代码：https://yangzhifeio.github.io/project/MMGDreamer

导读

可控场景生成是指根据输入提示生成逼真的3D场景，并允许对这些场景中的特定物体进行精确控制和调整。它广泛应用于虚拟现实、室内设计和具身智能，提供沉浸式体验并增强决策过程。在这些应用中，场景图作为一种强大的工具，通过简洁地抽象场景上下文和物体之间的相互关系，实现直观的场景操作和生成。

简介

可控的3D场景生成在虚拟现实和室内设计中有着广泛的应用，生成的场景应在几何方面表现出高度的真实感和可控性。场景图提供了一种合适的数据表示方式，便于这些应用的实现。然而，当前基于图的场景生成方法局限于基于文本的输入，对灵活的用户输入适应性不足，阻碍了对物体几何形状的精确控制能力。为解决这一问题，我们提出了MMGDreamer，这是一种用于场景生成的双分支扩散模型，它结合了一种新颖的混合模态图、视觉增强模块和关系预测器。混合模态图允许物体节点整合文本和视觉模态，节点之间存在可选关系。它增强了对灵活用户输入的适应性，并能够对生成场景中物体的几何形状进行精细控制。视觉增强模块通过使用文本嵌入构建视觉表示，丰富了仅含文本节点的视觉保真度。此外，我们的关系预测器利用节点表示来推断节点之间缺失的关系，从而产生更连贯的场景布局。大量实验结果表明，MMGDreamer在物体几何形状控制方面表现出色，实现了最先进的场景生成性能。

<

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。