点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
作者 | Jiawei Wang等
编辑 | 自动驾驶之心
最近,特斯拉在其技术演讲中首次系统展示了内部使用的世界模型(World Model)。特斯拉的世界模型是一个神经网络驱动的虚拟世界生成器,它能根据车辆的状态和控制输入(转向、油门、刹车)实时合成八个摄像头视角的高分辨率视频。
这使系统能在没有真实相机的情况下预测环境变化,重建连续、空间一致的驾驶画面。它的主要作用是支持闭环验证:可以重放历史问题场景、注入新的对抗事件、并在虚拟环境中实时控制车辆,用于测试和强化学习。由于模型学到的是通用的“感知—动作—世界变化”映射,它还能迁移到机器人等其他平台,成为通用物理智能的基础组件。这意味着系统不再只是被动地看见世界,而是能够在内部模拟中理解世界的反应。


TeraSim-World:开放的全栈端到端自动驾驶仿真世界模型
与此同时,密歇根大学、SaferDrive AI、香港大学和清华大学的研究团队发布了一个开源框架:
TeraSim World: Worldwide Safety-Critical Data Synthesis for End-to-End Autonomous Driving:https://arxiv.org/abs/2509.13164v2
它在开源条件下实现了与特斯拉世界模型同级的生成与评测能力,并进一步突破了特斯拉的设定——无需真实地图或传感器背景,整个城市环境与交通行为都由AI自动生成,从而构建出一个完全数据驱动、可复现、可扩展的世界模型平台。
文章链接: https://arxiv.org/abs/2509.13164
代码仓库:https://github.com/mcity/TeraSim
在线演示:https://wjiawei.com/terasim-world-web/
该项目由密歇根大学 Mcity 自动驾驶测试中心主导开发。Mcity 是全球最早建立的自动驾驶测试场之一,其研究团队在 Nature Communications 和 Nature 上发表了两项奠基性工作:
NeuralNDE(自然驾驶环境) 与 NADE(自然与对抗融合驾驶环境)。NeuralNDE 提出了用数据驱动的方式重建统计级别真实的驾驶者在复杂交通中的交互行为,为自然驾驶仿真奠定了方法基础。在此基础上,NADE 系统性地引入了对抗性生成机制,能够在仿真环境中重现罕见但合理的安全关键场景。这项研究是 Nature 迄今唯一的自动驾驶测试封面论文。TeraSim World 延续并融合了这两项研究,使系统既能再现自然交通行为,又能在同一框架下主动生成突发风险与环境干扰,并且更进一步推进到全栈自动驾驶的仿真和测试。
以下为系统演示片段:
TeraSim-World 是一个模块化、全自动化的数据合成流水线,专为生成端到端自动驾驶所需的真实且安全关键的数据而设计。整个框架如下图所示。

系统从任意全球坐标出发,首先1) 自动检索真实世界的道路地图,并将其转换为仿真可用的格式,使其能与不同类型的智能体行为建模后端集成。接着,交通需求生成模块根据实时或历史交通源确定背景流量分布。2) 与此同时,提示生成模块利用街景图像和多模态语言模型(VLM)提取语义描述。这些提示捕捉静态环境特征,如建筑、植被、天气等,确保生成的视频在视觉上与选定地理区域一致。3) 在此基础上,智能体仿真模块生成所有交通参与者的轨迹,包括车辆、行人、自行车等。该模块继承自 TeraSim 框架,可同时生成自然驾驶与安全关键对抗行为。输出结果是一组与道路布局相匹配的智能体轨迹。4) 为了生成传感器级输出,TeraSim-World 首先将这些轨迹和地图布局渲染为多视角的 HDMap 视频,作为结构化的条件输入,再送入 Cosmos 模型。随后,Cosmos 生成时序一致且地理对齐的多视角视频。最终结果可直接用于端到端自动驾驶系统的训练、测试与基准评估。
1. 真实地图与交通环境构建
核心思想是让仿真建立在真实世界的地理环境上。
用户只需输入一个位置或路线(例如“Ann Arbor的一个环岛”或“从旧金山到圣地亚哥”),系统就会自动从公开地图数据中获取当地的道路结构和交通情况。它还能识别道路类型(如主干道、环岛或交叉口),并生成可直接用于仿真的数字地图。
为了让交通更加真实,TeraSim-World 不仅能手动设置“多少车、多少行人”,还可以从实时交通数据服务(例如 TomTom API)中自动获取该地区的实际车流速度与拥堵状况,从而模拟出符合当地节奏的早晚高峰、拥堵点或空旷路段。下图是一个利用Ann Arbor的真实环岛自动化产生高精度地图的示例。

2. 智能体仿真(Agent Simulation)
这一部分的关键在于让虚拟的车、人、骑行者像现实中那样行动。 系统通过学习大量真实驾驶数据,生成自然的多车交互行为:例如在红绿灯前减速、在狭窄道路中错车、在环岛中礼让等。这种行为不是随机的,而是带有“人类驾驶的特征”。
在此基础上,TeraSim-World 还会自动引入各种“安全关键情境”,也就是那些罕见但高风险的事件,例如:
前方车辆突然切入;
行人闯红灯;
对向车辆未礼让左转;
自行车从盲区出现。
这些事件不会随意发生,而是由系统根据真实世界事故概率和强化学习机制来“编排”,确保既具有风险,也不会完全脱离现实。
最终,系统会输出每个参与者的详细轨迹,描述他们在道路上的移动和互动。如下的视频展示了数据驱动的智能体仿真的示例,左侧是真实世界采集到的自然驾驶数据,右侧是经过训练的算法重现的自然驾驶仿真环境。
3. 传感器仿真(Sensor Simulation)
传统仿真系统通常停留在轨迹级数据,而 TeraSim World 能生成真实感摄像头(可扩展到其他类别的传感器)输入。
这一部分依托于 NVIDIA 的开源世界模型 Cosmos 系列。
系统首先利用 Google Street View API 抓取六个方向的街景图像,
再调用多模态语言模型(如 GPT-4o)自动生成语义描述,例如针对如下的街景:

★“郊区环岛路口,红色路面铺装,草坪圆形绿岛,天空多云光照柔和,周围树木茂密环境开阔。”
这些文本语义被输入到 Cosmos Transfer1 7B 和 Cosmos Drive Dreams 模型中,
用于控制生成视频的外观、风格和地理一致性。Cosmos 是 NVIDIA 发布的开源世界模型平台,
可在统一架构下实现物理一致的多视角视频生成。
TeraSim系统随后将模拟的交通轨迹送入 Cosmos 模型生成高分辨率、时间同步的多视角视频。

系统生成的视频覆盖六个摄像头视角,分辨率最高可达 1280×704,帧率为 24 fps。
模型在生成过程中使用跨视角注意力机制,确保不同相机间的几何对齐和光照一致。
最终输出的视频不仅视觉上逼真,在动力学层面也与模拟轨迹严格一致。
下图展示了系统生成的多视角视频示例,包括前视、后视、左右侧视等六个摄像头

4. 自动化压力测试框架
TeraSim-World 支持自动化的全栈压力测试,可在统一框架下生成和验证不同类型的风险场景。系统最初基于 NADE(自然与对抗融合驾驶环境)的研究成果,用于复现各种动态风险,如前车急停、行人突然穿越或车辆异常并线。
在此基础上,它进一步扩展到静态风险和环境风险,可自动注入交通锥、施工区域、光照变化、白天与夜晚切换、以及不同的天气与路面条件。通过这种方式,TeraSim-World 能系统地评估自动驾驶系统在多种复杂环境下的稳定性和安全边界。

结论
本文介绍了 TeraSim-World —— 一个能够在全球任意地点生成安全关键驾驶数据的自动化系统。它把智能体仿真和传感器仿真结合在一起,形成完整的数据生成流程,可在无需实地采集的情况下,为端到端自动驾驶系统提供训练与测试数据。特斯拉的世界模型展示了封闭端到端系统的技术路线。TeraSim World 在开放条件下实现了同类能力,用于验证和研究其在真实数据、复杂行为与安全评估中的适用性。它提供了一种可重现的世界建模框架,使研究者能够直接检验模型、算法与环境交互之间的关系。
这种方法为自动驾驶安全验证提供了一种可扩展、成本更低的替代方案,减少了反复实车采集和长时间路测的需求。接下来,研究团队计划基于该系统构建大规模的合成驾驶数据集,并进一步拓展到多模态传感器(如雷达、激光雷达)仿真与闭环自动驾驶测试。
与特斯拉的世界模型不同,TeraSim-World 采用开放的技术路线,希望成为全球研究者与开发者共享的自动驾驶虚拟试验场。系统基于可验证、可复现的架构构建,未来将持续更新与扩展,支持更丰富的传感器类型和驾驶任务。其长期愿景是打造一个开放的端到端自动驾驶仿真与评测体系,让虚拟道路测试真正成为实车路测的可靠替代。
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
TeraSim World开源自动驾驶仿真模型
1237

被折叠的 条评论
为什么被折叠?



