计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。CAD 构造序列是 CAD 模型表示的一种类型,不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示,它被描述为一系列建模操作,包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程,以 JSON 代码格式储存和表示。这类表示方法与专业建模工程师构建 CAD 模型的过程最为近似,可以直接被导入 AutoDesk、 ProE 等建模软件。构建这些 CAD 模型需要领域专业知识和空间推理能力,也需要较高的学习成本。
图 1. CAD 建模代码示意图
作为空间智能的关键能力之一,空间建模能力对 MLLM 提出了严峻的挑战。尽管 MLLM 在生成 2D 网页布局代码等方面展现出了卓越的性能,这类方法在 3D 建模领域仍然存在问题,比如生成 4 个平行于车底方向车轮的小车。这是因为 MLLM 在推理 3D 草图角度和 3D 空间位置时受限于大语言模型的 1D 推理惯性,难以理解复杂数字背后真正的空间含义。