空间智能：技术现状、产业图景与未来趋势

空间智能（Spatial AI）指基于三维视觉与多模态传感，对物理空间进行“感知—建模—推理—决策—交互”闭环的人工智能新范式。2025 年以来，随着 3D 大模型、端到端强化学习、边缘算力与 AIGC 的集中突破，空间智能正从“看得见”走向“建得准、算得动、用得广”。本文综合 2025 年 4–9 月最新产业报告与学术进展，系统梳理空间智能的技术现状、产业格局、典型应用与前沿趋势，并给出“数据-模型-算力-场景-伦理”五维发展路线图，为科研与产业界提供参考。

关键词
空间智能；三维视觉；世界模型；数字孪生；具身智能；Sim-to-Real；物理 AI

1 引言

继语言大模型之后，“理解三维世界并与之交互”成为 AI 的新制高点。空间智能将 AI 的输入维度从 2D 图像/1D 文本扩展到 3D 体素（Voxel）与 4D 时空信号，使算法具备“方向感”“距离感”“物理感”，被普遍视为通向通用人工智能（AGI）的必经之路。2025 年 3 月，“空间智能”首次写入中国国务院政府工作报告，与具身智能并列成为“人工智能+”行动的核心方向。

2 技术现状（2025）

表格

复制

技术模块	成熟度	关键指标	主要瓶颈
3D 感知与 SLAM	高	定位误差 <1 cm，延迟 5 ms	动态场景回环失败
3D AIGC	中	千万级资产库，生成时间 30 s	表征未收敛、可控性差
具身智能	低	真机成功率 60–70%	数据稀缺、跨本体泛化差
XR 交互	中高	单眼 4K/120 Hz，延迟 15 ms	内容生态不足
世界模型	概念	预测 horizon 10 s	训练代价高、可解释性差

3 产业格局与玩家图谱（2025）

表格

复制

领域	头部玩家	2025 新动作
自动驾驶	Tesla FSD V13、Waymo、百度 Apollo	百万卡集群训练，接管里程提升 10×
3D 生成	NVIDIA Omniverse、Unity、华为盘古 3D	文本/图像→3D 资产，30 s 可商用
具身智能	Tesla Optimus、波士顿动力、优必选	真机数据+仿真混合，2025 Q4 小批量试产
XR 终端	Meta Quest 3 Pro、苹果 Vision Pro 2	空间视频+空间计算平台开放
城市空间		深圳全域交通底座、上海数字孪生黄浦

4 典型应用场景

4.1 智慧交通与自动驾驶

深圳 2025 全域交通底座接入 6 万路摄像头+2000 辆 Robotaxi，实现“灯-车-路”协同，平均通行效率提升 18%。
海南“萝卜快跑”自动驾驶文旅车，车内提供方言解说+沿途消费推送，打造“交通即服务”新范式。

4.2 城市治理与数字孪生

考拉悠然“智慧灯杆”集成 3D SLAM+气体传感，河面污染巡检效率提升 5 倍。
上海黄浦区构建 220 km² 神经辐射场（NeRF）城市模型，支持暴雨内涝分钟级推演。

4.3 具身机器人与物流

Tesla Optimus 利用“视觉-语言-动作”大模型，在 Fremont 工厂实现 4680 电池单件抓取 92% 成功率。
京东物流 2025 年部署 5000 台 3D 视觉拣选机器人，大件仓空间利用率提高 35%。

4.4 医疗与手术

手术机器人通过空间智能实现 0.1 mm 级精度，复杂手术时间缩短 40%，术后并发症下降 25%。
5G+AR 远程会诊系统把三维器官模型实时投射至基层医院，诊断准确率提升 60%。

4.5 文旅与消费

杭州“AR 西湖”小程序把南宋临安城重现在手机中，游客互动时长增加 3 倍。
数字情感体进入商场，通过手势/眼动追踪与年轻用户交互，成为情绪陪伴新入口。

5 前沿趋势展望（2025-2030）

表格

复制

趋势	技术内涵	里程碑预测
① 世界模型走向 4D 预测	基于 NeRF-3D 与 Transformer，预测未来 5–10 s 时空状态	2026 年城市级 4D 世界模型>100 km²
② 统一“视觉-语言-动作”大模型	单网络端到端输出 3D 感知、语义、控制信号	2027 年人形机器人零样本任务>80%
③ 边缘-云协同空间计算	5G-A/6G+空间光计算，延迟<1 ms，吞吐>1 Tbps	2028 年 XR 终端>10 亿台
④ AI 生成 3D 资产 AIGC	文本→可交互 3D 场景，30 s 内商用	2029 年 50% 游戏/影视资产由 AI 生成
⑤ 空间智能安全与伦理	可解释因果、隐私计算、功能安全（ISO 10218）	2030 年建立全球空间智能伦理框架

6 结论与建议

科研侧：重点突破“4D 世界模型+物理一致性约束”的统一框架，解决长时序、多物理耦合难题。
产业侧：构建“真实数据+仿真数据+XR 演示”三位一体飞轮，降低具身智能数据采集成本。
政策侧：加快制定空间数据共享协议、跨域隐私计算标准与世界模型安全评估体系，抢占全球话语权。
投资侧：关注 3D AIGC 工具链、边缘空间计算芯片、神经辐射场压缩与流化三大细分赛道。

空间智能正把 AI 从“会聊天的代理”升级为“懂世界的伙伴”。随着 3D 大模型、边缘算力与物理 AI 的螺旋上升，我们即将进入一个“所见即模型、所想即交互”的全新智能时代。

1. 概念与定义

空间智能指“个体或系统在三维空间与四维时空中对位置、形状、尺度、运动及相互关系进行感知、理解、推理与操作的能力”。

人类认知视角：加德纳多元智能理论中的视觉-空间智能，强调心理旋转、空间推理与导航。
人工智能视角：李飞飞将其定义为“机器在 3D 空间和时间中感知、推理并行动的能力”，是弥合“感知→行动”鸿沟的关键。

2. 核心技术栈（2025）

表格

复制

层级	关键模块	主流算法/工具	作用
① 三维感知	多传感器融合、SLAM、NeRF、3D GS	ORB-SLAM3、LIO-SAM、NICE-SLAM、Instant-NGP	实时定位与稠密建图
② 空间理解	语义分割、实例检测、关系图	PointNet++、SparseUNet、3D-CLIP	把几何变成“可认知对象”
③ 空间推理	路径规划、因果推理、世界模型	A、RRT、Transformer-World-Model	预测未来状态、决策优化
④ 空间生成	3D AIGC、Diffusion、NeRF 编辑	DreamFusion、Magic3D、Geo-Diffusion	文本/图像→3D 资产
⑤ 交互与协同	AR/VR、数字孪生、具身智能	Unity PolySpatial、NVIDIA Omniverse、OpenUSD	虚实同步、人机共融
⑥ 安全伦理	可解释、隐私保护、功能安全	Grad-CAM、联邦 3D 学习、ISO 10218	保障物理交互可信

3. 极简代码示例：RGB-D 点云配准（Open3D）

Python

复制

import open3d as o3d

# 读取两帧 RGB-D 图像
source = o3d.io.read_point_cloud("frame0.ply")
target = o3d.io.read_point_cloud("frame1.ply")

# 下采样 + 法线估计
source = source.voxel_down_sample(voxel_size=0.02)
target = target.voxel_down_sample(voxel_size=0.02)
source.estimate_normals(); target.estimate_normals()

# 粗配准：FPFH + RANSAC
result = o3d.pipelines.registration.registration_ransac_based_on_feature_matching(
        source, target, o3d.pipelines.registration.compute_fpfh_feature(source),
        o3d.pipelines.registration.compute_fpfh_feature(target), 0.05,
        o3d.pipelines.registration.TransformationEstimationPointToPoint(False), 4,
        [o3d.pipelines.registration.CorrespondenceCheckerBasedOnEdgeLength(0.9)],
        o3d.pipelines.registration.RANSACConvergenceCriteria(4000000, 500))

print("粗配准变换:\n", result.transformation)

4. 应用场景成熟度（2025）

表格

复制

场景	成熟度	典型案例
自动驾驶	高	Waymo 百万英里接管>1 万英里；百度 Apollo 亦庄全无人运营
3D 内容生成	中	华为“盘古 3D”30 s 生成可商用资产；Unity Muse 一键生成城市
具身机器人	低-中	Tesla Optimus 工厂搬运成功率 92%；清华 H1 人形 0-1 学习行走
数字孪生城市	中高	上海黄浦 220 km² NeRF 城市模型，支持暴雨内涝分钟级推演
XR 交互	中	Apple Vision Pro 2 单眼 4K/120 Hz，空间视频日活>500 万