点击下方卡片,关注“3D视觉之心”公众号
第一时间获取3D视觉干货
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
大规模场景生成的挑战
近年来,生成式人工智能的进步对自动驾驶产生了深远影响,其中扩散模型成为数据合成和驾驶仿真的关键工具。一些方法将扩散模型作为数据生成机器,用于生成高保真的驾驶视频或多模态的合成数据,以增强感知任务,并生成如车辆插队等关键但罕见的情况,从而丰富规划数据。除此之外,还有一些方法将扩散模型作为世界模型,用于预测未来的驾驶状态,从而实现端到端的规划和闭环仿真。这些研究主要强调通过时间递归生成长期视频,鼓励扩散模型输出时序一致的视频序列,以服务于后续任务。
然而,具备空间扩展能力的大规模场景生成仍是一个新兴但尚未被充分研究的方向,其目标是构建可用于任意驾驶仿真的广阔而沉浸式的三维环境。一些开创性工作已经探索了大规模的三维驾驶场景生成。例如,有的方法利用扩散模型生成城市级别的三维占据网格,但由于缺乏外观细节,限制了其在逼真仿真中的实用性。也有方法扩展生成三维占据信息和图像,但它们通常需要手动定义的大规模布局作为条件输入,这使得生成过程复杂化并限制了灵活性。
本文探索解决具备空间扩展能力的大规模场景生成这一问题,它面临以下三个主要挑战:
灵活的可控性:支持通过低级条件(如布局)实现精确的场景组成,以及通过高级提示(如用户意图文本描述)实现高效、直观的场景定制。例如,如图中所示,用户可以提供简要的场景描述,系统则能充分利用生成模型的创造力,生成合理的场景;
高保真的几何与外观:生成复杂几何结构与逼真的视觉外观,以确保三维场景在结构完整性和视觉真实感方面都具有高质量;
大规模一致性:在相邻区域之间保持空间一致性,从而确保整个扩展场景的全局连贯性。
项目链接:https://x-scene.github.io/
为应对这些挑战,本文介绍的一个**新颖的大规模驾驶场景生成框架X-Scene[1]**。

X-Scene 具备以下能力:
多粒度可控性:X-Scene 允许用户以不同的细节层级进行引导,既支持用于精细控制的布局输入,也支持高效生成的文本提示。为增强文本控制的表达力,输入的文本提示会首先通过大语言模型进行丰富,从而生成详细的场景描述。然后,这些描述将指导一个文本驱动的布局生成模块,自动建立空间结构,用于后续的场景合成。该双重控制机制既支持需要精细布局控制的用户,也服务于偏好快速生成的用户,从而提升了可用性;
几何和视觉保真度:X-Scene 通过一个统一的流程先后生成三维语义占据信息和相应的多视角图像。这一过程确保三维几何的结构准确性和图像外观的真实感,促进了几何(占据)和视觉(图像)模态之间的一致性与配准;
一致性的大规模扩展能力:为了构建广阔的环境,X-Scene 会逐步基于已生成的相邻区域,推理出新的场景内容。该一致性感知的外绘机制精细维护了空间连续性,促使三维驾驶场景能够超越单一区域地无缝扩展。
此外,为支持各种下游应用(如真实的驾驶仿真和在生成环境中的自由探索),我们进一步对生成的语义占据和多视角图像进行处理,将其重建为三维高斯表示(3DGS),这种技术能够精确保留复杂的几何结构和高保真的视觉外观。通过整合这些能力,X-Scene 推动了高保真、大规模、可控性强的驾驶场景合成的技术前沿,为自动驾驶中的数据生成与仿真提供了有力支撑。
具体方法
X-Scene 致力于通过一个统一的框架生成大规模三维驾驶场景,解决可控性、保真度与可扩展性的问题。如图1所示,X-Scene 包含三个关键组成部分:首先是多粒度可控模块,它支持高级用户意图和低级几何条件,从而实现灵活的场景指定;接着是占据与图像联合生成模块,它利用条件扩散模型生成三维体素占据图和多视角图像,确保结构准确与外观真实;最后是大规模场景外绘与重建模块,它通过一致性感知的外绘技术扩展场景,并将生成内容转换为三维高斯表示,以支持后续的仿真和探索任务。
多粒度可控性
X-Scene 通过两种方式支持场景控制:1)高级文本提示,经大语言模型扩展后,通过文本到布局生成模块转换为结构化布局(如图2所示);2)直接使用低级几何输入,实现精确的空间控制。这种混合方法既支持直观的创意表达,也满足精细的场景定制。

文本描述增强:给定用户提供的粗略文本提示 ,我们首先将其扩展为一个包含以下内容的完整场景描述 :场景风格 (天气、光照、环境)、前景物体 (语义、空间属性和外观)、背景元素 (语义与视觉特征)、文本场景图布局 ,表示场景实体之间的空间关系。结构化描述 的生成方式为:
其中 表示场景描述记忆库。每个实体 都是从收集的 个场景数据集中自动构建的,具体过程包括:1)使用视觉语言模型提取 ;2)将空间标注(物体框和车道线)转换为文本场景图布局 。如图2所示,RAG模块会从记忆库 中检索出与 类似的描述,并通过大语言模型生成最终的用户意图场景描述。
该流程在处理简短用户提示时通过 RAG 实现少样本检索与组合,具有灵活且具上下文感知的合成能力。记忆库 可扩展,支持新数据集无缝集成,以覆盖更广泛的场景风格。更多生成示例见附录。
文本场景图到布局生成:给定文本布局 ,我们将其转换为详细的布局图,流程如下(见图2)。首先构建场景图 ,其中节点 表示 个场景实体(如车辆、行人、车道),边 表示空间关系(如“在前方”、“在上方”)。每个节点和边通过语义特征 (由文本编码器 提取)与可学习的几何嵌入 拼接形成:
图嵌入经过图卷积网络更新,通过邻域聚合传播上下文信息。最后,布局生成被建模为一个条件扩散过程:每个物体的布局初始化为一个带噪的7维向量 (表示边界框中心、尺寸和朝向),每条车道线初始化为 个二维点 ,去噪过程以节点嵌入 为条件,生成几何一致的物体位置。
低级条件编码:我们将精细条件(如用户提供或模型生成的布局图与三维边界框)编码为嵌入以实现精准控制。如图1所示,布局图由卷积网络 编码为 ,三维框通过 MLP 网络 编码为 。此外,为加强几何对齐,我们将场景布局与三维框投影到相机视图中生成透视图,由卷积网络 编码捕捉图像平面上的空间约束。高级场景描述 则通过 T5 编码器 编码为文本嵌入 ,为可控生成提供语义信息。
占据与图像联合生成
受前人工作的启发,我们采用从三维到二维的联合生成结构,首先通过扩散生成三维几何,再利用占据图渲染的语义图与深度图指导图像合成,从而确保几何一致性与视觉真实感。
基于三平面的占据生成:我们采用三平面表示以高保真度编码三维占据场。给定占据体素 ,三平面编码器将其压缩为三个正交潜平面 。为减少下采样引起的信息损失,我们引入三平面可变形注意力机制,对查询点 聚合特征如下:
其中 为位置编码, 表示三维到二维的投影函数,偏移量为:
三平面VAE解码器通过特征 重建三维占据图。
接下来,基于潜三平面表示 ,我们引入条件扩散模型 合成新三平面。在每个时间步 ,模型根据两种条件进行去噪:1)加性空间条件 ,2)交叉注意力条件 。训练目标为:
结合三维几何引导的图像生成:获得三维占据后,将体素转化为三维高斯基元,参数包括位置、语义与不透明度,并通过分块光栅化渲染为语义图和深度图。我们进一步为整个场景生成归一化的三维坐标,并结合边界框提取目标对象的坐标,编码为位置嵌入 。语义图、深度图和透视图经卷积网络编码并与 融合为最终几何引导向量 ,用于对图像潜变量进行像素对齐的引导。图像扩散模型训练目标如下:
大规模场景外绘与重建
在完成单个场景块的生成后,我们提出一种渐进式外绘方法,能够一致地扩展多个块的占据图与图像,并将其重建为融合几何与外观的三维高斯表示(3DGS),以支持多样化的下游应用。

几何一致的场景外绘:我们基于三平面外绘技术扩展占据图,将任务分解为三个二维平面的外推(见图3)。核心思想是同步新潜平面 的去噪过程与已知参考平面 的正向扩散过程,在重叠区域通过掩码 引导。在每个去噪步骤 ,更新如下:
该方法可在保持重叠区域结构一致的同时,有效扩展未知区域,实现连贯的几何生成。
外观一致的图像外绘:除了占据外绘,我们还进一步扩展图像域以实现外观同步。为确保新旧视角在重叠区域的视觉一致性,初始方法通过相机姿态 对参考图像 进行变形,并执行图像修复。但单独使用变形图像作为条件不足以保证一致性。因此,我们将 与带噪图像 拼接,同时通过交叉注意力引入相机嵌入 ,以增强视角一致性与逼真度。
实验效果





总结一下
X-Scene是一个新颖的三维驾驶场景生成框架,实现了高保真度、灵活的可控性和大规模的一致性。通过多粒度控制机制,X-Scene 使得场景指定既直观又精确。联合体素和图像生成流水线确保了详细的几何结构和逼真的外观,而一致性感知的外绘技术则在大规模场景中保持空间一致性。广泛的实验表明,X-Scene 在生成质量、可控性和可扩展性方面优于现有方法,使其成为驾驶仿真、数据增强和互动场景探索等应用的强大工具。X-Scene 的一个关键局限性是其专注于静态三维场景生成。通过建模动态物体,将框架扩展到四维动态场景生成是未来的重要方向。推动四维场景生成将进一步加速自动驾驶发展,为高质量的合成数据和逼真的仿真环境提供有力支持,用于稳健的训练和测试。
参考
[1] 𝒳-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability
【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
扫码添加小助理进群
【具身智能之心】知识星球
具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1500人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、Diffusion Policy、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、各类学习路线等,涉及当前具身所有主流方向。
扫码加入星球,享受以下专有服务:
1. 第一时间掌握具身智能相关的学术进展、工业落地应用;
2. 和行业大佬一起交流工作与求职相关的问题;
3. 优良的学习交流环境,能结识更多同行业的伙伴;
4. 具身智能相关工作岗位推荐,第一时间对接企业;
5. 行业机会挖掘,投资与项目对接;