ICCV 2025 最佳论文出炉：CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠

原创已于 2025-10-23 09:29:46 修改 · 1.5k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #transformer #深度学习 #网络 #opencv

于 2025-10-23 09:29:24 首次发布

部署运行你感兴趣的模型镜像

今天凌晨，在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿，最终录用2699篇论文，录用率为24%。

来自卡耐基梅隆大学的团队凭借论文《Generating Physically Stable and Buildable Brick Structures from Text》斩获最佳论文奖，而以色列理工学院的研究则获得最佳学生论文奖。

四、StableText2Brick：给AI准备的“积木教材”

一、最佳论文：从文本到可建造的积木结构

当今生成式AI在3D内容创作领域蓬勃发展，但大多数生成模型只关注外观，却忽略了物理世界的约束。这些数字模型可能看起来很精美，但往往结构不稳定，或组件之间存在冲突，无法在现实世界中实际组装。

朱俊彦团队的研究漂亮地解决了这一问题。他们提出了BrickGPT——首个能够根据文本提示生成物理稳定、可实际搭建的积木结构的AI系统。

BrickGPT要解决的，就是这个长期被忽略的“现实可行性”问题。它的目标是：生成既好看、又能拼、还能稳的积木结构。

论文第一作者Ava Pun在其个人主页写道：“我希望回答一个问题：如何让AI不仅在我们的计算机上有用，而且在物理世界中也有用？”BrickGPT正是这一理念的完美体现。

二、作者团队

朱俊彦（Jun-Yan Zhu）：CMU 助理教授，清华校友，前 Adobe 研究科学家。
合作者：Ava Pun、Kangle Deng、Ruixuan Liu、Deva Ramanan、Changliu Liu。
项目主页：https://avalovelace1.github.io/BrickGPT/
代码开源（1.3K⭐）：GitHub - AvaLovelace1/BrickGPT

三、方法创新：给LLM加入“物理直觉”

BrickGPT 的核心是基于 LLaMA-3.2-Instruct-1B 微调的大语言模型。

研究者巧妙地把“搭积木”的任务转化为“预测下一块砖”的语言生成问题。

整个流程分三步：

积木文本化：

每块积木被编码为类似 "4x2 (1,7,17)" 的 token，整个结构就是一串“积木语言”。

指令微调：

模型学习“描述 → 积木序列”的对应关系，就像“语言版蓝图”。

物理约束生成：

拒绝采样（Rejection Sampling）：每放一块砖都检查是否合法。
物理感知回滚（Physics-aware Rollback）：若整体结构不稳定，自动退回至上一个稳定状态重新生成。

这一机制相当于在AI的生成过程中，嵌入了“工程师思维”。

四、StableText2Brick：给AI准备的“积木教材”

为了让AI学会搭积木，研究团队构建了一个超大规模数据集——StableText2Brick。

数据量：超过 47,000 个积木结构
覆盖对象：28,000+ 种独特3D物体
每个样本都附带：稳定结构 + 文本描述 + 多角度视图

构建过程包含四步：

从3D网格到积木（Mesh-to-Brick）：把连续网格模型体素化为离散积木。
结构增强：随机扰动积木排列，生成多样结构。
物理模拟：剔除会倒塌的不稳定设计。
文本生成：用 GPT-4o 为每个结构生成自然语言描述。

这让模型拥有了“图文并茂”的搭建教材，具备从描述到结构的学习能力。

五、实验结果：近乎完美的稳定性

实验结果表明，BrickGPT在关键指标上表现卓越：

有效性（无违规积木或碰撞）：100%
稳定性（物理结构稳定）：98.8%

远超基线模型，同时保持较高的文本相似度。

从对比结果中可以直观看出：

其他方法生成的结构常有碰撞（黑色区域）或悬浮问题，而BrickGPT生成的积木既稳定又合理。

它还能根据描述自动生成带颜色与纹理的版本，兼顾创意与实用。

更重要的是——这些结构不仅能被人类拼搭，甚至还能让机械臂自动组装！

六、其他重要奖项

最佳学生论文

以色列理工学院的《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》提出了一种无需反演的文本驱动图像编辑方法。

传统方法需要将图像反演到噪声空间，而FlowEdit通过构建常微分方程，直接在源图像分布与目标图像分布间建立映射路径，实现了更高效的编辑。

论文地址：https://arxiv.org/abs/2412.08629

项目主页：https://matankleiner.github.io/flowedit/

Code&Data：https://github.com/fallenshock/FlowEdit

最佳论文荣誉提名

卡耐基梅隆大学的《Spatially-Varying Autofocus》打破了传统镜头只能单一平面清晰成像的限制，设计了一种能够任意调整景深的计算镜头，可同时使整个场景清晰成像。

赫尔姆霍兹奖（测试方法奖）

两篇获奖论文均来自微软研究院：

《Fast R-CNN》：提出快速区域卷积网络，显著提升目标检测速度与精度

论文地址：https://arxiv.org/abs/1504.08083

《Delving Deep into Rectifiers》：引入PReLU激活函数和He初始化方法，首次在ImageNet上超越人类水平分类性能

论文地址：https://arxiv.org/abs/1502.01852

埃弗林厄姆奖（严谨评估奖）

SMPL人体模型团队：开发参数化三维人体模型，对数字人领域产生里程碑式影响

VQA数据集团队：创建视觉问答基准数据集，推动多模态AI发展

项目主页：https://smpl.is.tue.mpg.de/

个人成就奖

杰出研究员奖：David Forsyth（UIUC）、Michal Irani（魏茨曼科学研究院）

阿兹列尔·罗森菲尔德终身成就奖：Rama Chellappa（约翰霍普金斯大学）

七、中国力量闪耀ICCV

本届ICCV数据显示，中国作者贡献了50%的投稿论文，再次彰显了中国在计算机视觉领域的强大实力。

从最佳论文的华人主导团队，到占半壁江山的投稿作者，中国学者正在全球计算机视觉舞台上扮演着越来越重要的角色。

总结

ICCV 2025 将最佳论文颁给 BrickGPT，不仅因为它“能搭出稳固积木”，

更因为它象征着引领AIGC社区向着遵循物理规律、真实世界可用的方向迈进。

未来的AI，不只是内容创作者，更是数字工程师。

您可能感兴趣的与本文相关的镜像

Qwen3-8B

文本生成

Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型，提供了一整套密集型和专家混合（MoE）模型。基于广泛的训练，Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展