导读
在3D生成模型不断刷屏的今天,让AI生成一个虚拟的3D模型早已不稀奇。真正难的,是让它在现实中“站得住”。想象一下:你输入一句话——“一艘流线型的长船”——系统不仅生成了这艘船的外形,还能给出逐块拼搭步骤,最后真的能用乐高积木搭出来,甚至交给机器人自动装配。这听上去像是“AI版的建筑大师”。而来自卡内基梅隆大学(CMU)的研究团队,真的把这件事做成了——他们在ICCV 2025上发布了世界首个从文本生成可搭建结构的模型:BRICKGPT,这套系统的目标很直接——让AI学会“造东西”,而不是只会“画东西”。它不仅理解语言,还要理解重力、连接、平衡和支撑等物理规律。

图1|这张图展示了 BRICKGPT 的整体工作流程。(a) 系统从一句自然语言描述出发,逐块生成可拼接、物理稳定的积木结构,每一步都能看到“砖块接砖块”的搭建过程;(b) 生成的设计既能手动拼装,也能由双机械臂自动完成搭建;(c) 下方展示了不同类型的生成结果——不仅有基础结构(上方),还能根据外观描述生成带颜色和纹理的模型(下方)。官方网站还提供了逐步搭建的视频演示,强烈推荐一看(https://avalovelace1.github.io/BrickGPT/)
论文出处:ICCV2025
论文标题:Generating Physically Stable and Buildable Brick Structures from Text
论文作者:Ava Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu, Jun-Yan Zhu
论文地址:https://arxiv.org/abs/2505.05469

团队发现,大多数Text-to-3D模型虽然能生成精美形状,但这些设计往往无法被真实拼接或支撑,要么悬空、要么一碰就塌。
于是,他们决定换个角度:让语言模型一步步预测下一个“砖块”。
BRICKGPT的整体流程很像“语言生成句子”的过程,只不过它不是输出单词,而是输出形如:
2x4 (3,5,0)
1x2 (4,7,2)
...
这样的砖块描述。每个“token”代表一个砖块的尺寸与坐标。为此,他们构建了一个庞大的数据集——StableText2Brick,包含:
● 超过 4.7 万个物理稳定结构;
● 来自 ShapeNet 的 2.8 万个独特3D物体;
● 每个结构都配有由 GPT-4o 自动生成的多视角文字描述。
在训练阶段,团队使用 LLaMA-3.2-1B-Instruct 作为基础模型,通过指令微调让它学会把语言转化为砖块序列。
● 而在推理阶段,BRICKGPT 采用了“物理守护”机制:有效性检查(Validity Check)——确保生成的砖块来自标准 LEGO 库、无重叠无越界;
● 物理感知回滚(Physics-aware Rollback)——一旦检测到结构坍塌,就撤销至上一个稳定状态再继续生成。
最终,它能从一句自然语言,逐砖生成可拼装、可落地的三维结构。

图2|可视化积木搭建过程

语言模型的“下一砖预测”机制:让大模型真的懂结构
传统 Text-to-3D 方法通常在图像或体素空间中优化,而 BRICKGPT 把整个生成过程转成“语言序列”。研究者为每个砖块定义文本化表示格式 {h}×{w}({x},{y},{z}),再让模型学习“下一个砖块该放哪”。这种方式不仅轻量,还能自然地继承 LLM 的逻辑与推理能力。换句话说,模型不再只是“画出形状”,而是学会了“如何搭起来”。

图3|展示了 BRICKGPT 的核心原理。(a) 首先,把一个完整的积木结构拆解成“文本化砖块序列”,就像一句话被拆成词;(b) 接着,团队用这些“砖块-描述”对,微调了 LLaMA-3.2-1B 模型,让它学会从文字中“写出”积木;(c) 在推理阶段,系统会逐块生成,每新增一块都要通过有效性检查(是否来自标准库、是否重叠)。如果检测到不稳定,就会触发物理回滚机制——删掉问题砖块重新生成,直到结构完全稳定。可以理解为:模型在“边搭边自检”
物理约束推理
仅仅模仿形状还不够,关键是让结构不塌。为此,团队引入了一套基于非线性物理平衡分析的验证机制。每块砖都要通过“受力分析”,确保各方向的力矩与摩擦平衡满足稳定条件(论文中用Gurobi优化器求解)。如果某块砖的稳定度为0,系统会自动“回滚”至上一步,再重新采样。
得益于这套机制,BRICKGPT 生成的结果中,98.8% 的结构物理稳定,远超 LLaMA-Mesh 的 50.8% 或 XCube 的 75.2%。

图4|这张图解释了物理稳定性如何计算。(a) 左图展示单个积木受到的各种力:包括重力(黑)、上下砖块的垂直力(红/蓝、绿/紫)、连接处的剪切力(青)以及相邻砖块的侧向支撑力(黄);(b) 右图将这些力扩展到整体结构,形成完整的受力网络。通过求解静力平衡方程,系统能为每块砖打出“稳定性分数”,决定它是否可能坍塌
数据与可制造性结合
StableText2Brick 不只是一个训练集,更像是 AI 的“乐高练习册”。每个样本都源自 ShapeNetCore 模型,通过体素化、删重建与稳定性筛选得到。这种从几何到实体的全流程数据,使模型具备“可建造意识”。最终,研究者不仅在仿真中验证生成效果,还让双机械臂自动拼搭出完整结构。论文展示了真实机器人根据文本自动装配积木的实验,验证了设计的可物理执行性。

图5|这张图揭示了他们如何构建“教AI搭积木”的数据集。(a) 研究者先从 ShapeNetCore 的3D模型出发,将其体素化为 20×20×20 的网格,再通过“删—重建”算法生成砖块结构;(b) 为增加多样性,每个形状会随机调整砖块布局;(c) 然后利用物理稳定性分析过滤掉不稳的结构,只保留能“立得住”的;(d) 最后用 GPT-4o 从24个视角的渲染图生成详细文字描述;(e) 下方展示了来自五个类别的样例数据。这套流程让模型学会把几何形状与文字描述对齐,也为后续的物理可建造性打下基础

在 250 条验证文本上,BRICKGPT 生成的结构在各项指标上全面领先:
● 有效性率 100%(无越界、无碰撞)
● 稳定率 98.8%(几乎全部可立)
● 文本一致性 CLIP 分数 0.324
● DINOv2 视觉相似度 0.880

图6|各模型在多项指标上的表现:有效率(Validity):BRICKGPT 达到 100%;稳定率(Stability):高达 98.8%,远超其它方法(LLaMA-Mesh 仅 50.8%);CLIP/DINOv2 相似度:保持与输入文字高度匹配的视觉一致性。这得益于论文提出的“砖块拒绝采样”和“物理回滚”机制,使模型在不牺牲美观的情况下保持结构稳固
相比之下,XCube 和 Hunyuan3D-2 的稳定率仅为 75.2%。更直观的是图像结果:原本在零样本模式下 LLaMA 生成的模型常常“砖块悬空”,而 BRICKGPT 能输出可完整搭建的椅子、桌子、船只与吉他。
研究者还展示了消融实验:
● 去掉“拒绝采样”会导致砖块相互碰撞;
● 去掉“回滚”则让结构看似完成但内部空心不稳。
此外,论文还拓展了砖块着色与纹理生成,利用 FlashTex 方法为结构生成多样外观,让作品从单调积木变得更具艺术性。

图7|这组结果展示了 BRICKGPT 与多种主流 3D 生成模型(如 LLaMA-Mesh、LGM、XCube、Hunyuan3D-2)的对比。在相同文本输入下,BRICKGPT 生成的积木结构形状多样、细节丰富,并能严格对齐文字描述。图中黑色砖块表示碰撞部分,可见其它方法普遍存在“砖块互穿”或“结构悬空”的问题,而 BRICKGPT 生成的作品几乎全部稳定可拼

BRICKGPT 让“从文本生成三维结构”真正跨过了虚拟与现实的鸿沟。它不仅能生成形状,更能生成可落地、可拼接、可被机器人执行的设计。这项工作展示了语言模型在“结构理解”与“物理约束推理”中的潜力,也为未来具身智能系统的“可制造生成”开辟了新方向。未来,也许只需一句话——“造一栋能自己站起来的房子”,AI 就能把这句话变成现实。
1615

被折叠的 条评论
为什么被折叠?



