目录
(2025年综述论文)
摘要
空间智能(Spatial AI)指基于三维视觉与多模态传感,对物理空间进行“感知—建模—推理—决策—交互”闭环的人工智能新范式。2025 年以来,随着 3D 大模型、端到端强化学习、边缘算力与 AIGC 的集中突破,空间智能正从“看得见”走向“建得准、算得动、用得广”。本文综合 2025 年 4–9 月最新产业报告与学术进展,系统梳理空间智能的技术现状、产业格局、典型应用与前沿趋势,并给出“数据-模型-算力-场景-伦理”五维发展路线图,为科研与产业界提供参考。
关键词
空间智能;三维视觉;世界模型;数字孪生;具身智能;Sim-to-Real;物理 AI
1 引言
继语言大模型之后,“理解三维世界并与之交互”成为 AI 的新制高点。空间智能将 AI 的输入维度从 2D 图像/1D 文本扩展到 3D 体素(Voxel)与 4D 时空信号,使算法具备“方向感”“距离感”“物理感”,被普遍视为通向通用人工智能(AGI)的必经之路。2025 年 3 月,“空间智能”首次写入中国国务院政府工作报告,与具身智能并列成为“人工智能+”行动的核心方向。
2 技术现状(2025)
表格
复制
| 技术模块 | 成熟度 | 关键指标 | 主要瓶颈 |
|---|---|---|---|
| 3D 感知与 SLAM | 高 | 定位误差 <1 cm,延迟 5 ms | 动态场景回环失败 |
| 3D AIGC | 中 | 千万级资产库,生成时间 30 s | 表征未收敛、可控性差 |
| 具身智能 | 低 | 真机成功率 60–70% | 数据稀缺、跨本体泛化差 |
| XR 交互 | 中高 | 单眼 4K/120 Hz,延迟 15 ms | 内容生态不足 |
| 世界模型 | 概念 | 预测 horizon 10 s | 训练代价高、可解释性差 |
3 产业格局与玩家图谱(2025)
表格
复制
| 领域 | 头部玩家 | 2025 新动作 |
|---|---|---|
| 自动驾驶 | Tesla FSD V13、Waymo、百度 Apollo | 百万卡集群训练,接管里程提升 10× |
| 3D 生成 | NVIDIA Omniverse、Unity、华为盘古 3D | 文本/图像→3D 资产,30 s 可商用 |
| 具身智能 | Tesla Optimus、波士顿动力、优必选 | 真机数据+仿真混合,2025 Q4 小批量试产 |
| XR 终端 | Meta Quest 3 Pro、苹果 Vision Pro 2 | 空间视频+空间计算平台开放 |
| 城市空间 | 深圳全域交通底座、上海数字孪生黄浦 |
4 典型应用场景
4.1 智慧交通与自动驾驶
-
深圳 2025 全域交通底座接入 6 万路摄像头+2000 辆 Robotaxi,实现“灯-车-路”协同,平均通行效率提升 18%。
-
海南“萝卜快跑”自动驾驶文旅车,车内提供方言解说+沿途消费推送,打造“交通即服务”新范式。
4.2 城市治理与数字孪生
-
考拉悠然“智慧灯杆”集成 3D SLAM+气体传感,河面污染巡检效率提升 5 倍。
-
上海黄浦区构建 220 km² 神经辐射场(NeRF)城市模型,支持暴雨内涝分钟级推演。
4.3 具身机器人与物流
-
Tesla Optimus 利用“视觉-语言-动作”大模型,在 Fremont 工厂实现 4680 电池单件抓取 92% 成功率。
-
京东物流 2025 年部署 5000 台 3D 视觉拣选机器人,大件仓空间利用率提高 35%。
4.4 医疗与手术
-
手术机器人通过空间智能实现 0.1 mm 级精度,复杂手术时间缩短 40%,术后并发症下降 25%。
-
5G+AR 远程会诊系统把三维器官模型实时投射至基层医院,诊断准确率提升 60%。
4.5 文旅与消费
-
杭州“AR 西湖”小程序把南宋临安城重现在手机中,游客互动时长增加 3 倍。
-
数字情感体进入商场,通过手势/眼动追踪与年轻用户交互,成为情绪陪伴新入口。
5 前沿趋势展望(2025-2030)
表格
复制
| 趋势 | 技术内涵 | 里程碑预测 |
|---|---|---|
| ① 世界模型走向 4D 预测 | 基于 NeRF-3D 与 Transformer,预测未来 5–10 s 时空状态 | 2026 年城市级 4D 世界模型>100 km² |
| ② 统一“视觉-语言-动作”大模型 | 单网络端到端输出 3D 感知、语义、控制信号 | 2027 年人形机器人零样本任务>80% |
| ③ 边缘-云协同空间计算 | 5G-A/6G+空间光计算,延迟<1 ms,吞吐>1 Tbps | 2028 年 XR 终端>10 亿台 |
| ④ AI 生成 3D 资产 AIGC | 文本→可交互 3D 场景,30 s 内商用 | 2029 年 50% 游戏/影视资产由 AI 生成 |
| ⑤ 空间智能安全与伦理 | 可解释因果、隐私计算、功能安全(ISO 10218) | 2030 年建立全球空间智能伦理框架 |
6 结论与建议
-
科研侧:重点突破“4D 世界模型+物理一致性约束”的统一框架,解决长时序、多物理耦合难题。
-
产业侧:构建“真实数据+仿真数据+XR 演示”三位一体飞轮,降低具身智能数据采集成本。
-
政策侧:加快制定空间数据共享协议、跨域隐私计算标准与世界模型安全评估体系,抢占全球话语权。
-
投资侧:关注 3D AIGC 工具链、边缘空间计算芯片、神经辐射场压缩与流化三大细分赛道。
空间智能正把 AI 从“会聊天的代理”升级为“懂世界的伙伴”。随着 3D 大模型、边缘算力与物理 AI 的螺旋上升,我们即将进入一个“所见即模型、所想即交互”的全新智能时代。
1. 概念与定义
空间智能指“个体或系统在三维空间与四维时空中对位置、形状、尺度、运动及相互关系进行感知、理解、推理与操作的能力”。
-
人类认知视角:加德纳多元智能理论中的视觉-空间智能,强调心理旋转、空间推理与导航。
-
人工智能视角:李飞飞将其定义为“机器在 3D 空间和时间中感知、推理并行动的能力”,是弥合“感知→行动”鸿沟的关键。
2. 核心技术栈(2025)
表格
复制
| 层级 | 关键模块 | 主流算法/工具 | 作用 |
|---|---|---|---|
| ① 三维感知 | 多传感器融合、SLAM、NeRF、3D GS | ORB-SLAM3、LIO-SAM、NICE-SLAM、Instant-NGP | 实时定位与稠密建图 |
| ② 空间理解 | 语义分割、实例检测、关系图 | PointNet++、SparseUNet、3D-CLIP | 把几何变成“可认知对象” |
| ③ 空间推理 | 路径规划、因果推理、世界模型 | A*、RRT*、Transformer-World-Model | 预测未来状态、决策优化 |
| ④ 空间生成 | 3D AIGC、Diffusion、NeRF 编辑 | DreamFusion、Magic3D、Geo-Diffusion | 文本/图像→3D 资产 |
| ⑤ 交互与协同 | AR/VR、数字孪生、具身智能 | Unity PolySpatial、NVIDIA Omniverse、OpenUSD | 虚实同步、人机共融 |
| ⑥ 安全伦理 | 可解释、隐私保护、功能安全 | Grad-CAM、联邦 3D 学习、ISO 10218 | 保障物理交互可信 |
3. 极简代码示例:RGB-D 点云配准(Open3D)
Python
复制
import open3d as o3d
# 读取两帧 RGB-D 图像
source = o3d.io.read_point_cloud("frame0.ply")
target = o3d.io.read_point_cloud("frame1.ply")
# 下采样 + 法线估计
source = source.voxel_down_sample(voxel_size=0.02)
target = target.voxel_down_sample(voxel_size=0.02)
source.estimate_normals(); target.estimate_normals()
# 粗配准:FPFH + RANSAC
result = o3d.pipelines.registration.registration_ransac_based_on_feature_matching(
source, target, o3d.pipelines.registration.compute_fpfh_feature(source),
o3d.pipelines.registration.compute_fpfh_feature(target), 0.05,
o3d.pipelines.registration.TransformationEstimationPointToPoint(False), 4,
[o3d.pipelines.registration.CorrespondenceCheckerBasedOnEdgeLength(0.9)],
o3d.pipelines.registration.RANSACConvergenceCriteria(4000000, 500))
print("粗配准变换:\n", result.transformation)
4. 应用场景成熟度(2025)
表格
复制
| 场景 | 成熟度 | 典型案例 |
|---|---|---|
| 自动驾驶 | 高 | Waymo 百万英里接管>1 万英里;百度 Apollo 亦庄全无人运营 |
| 3D 内容生成 | 中 | 华为“盘古 3D”30 s 生成可商用资产;Unity Muse 一键生成城市 |
| 具身机器人 | 低-中 | Tesla Optimus 工厂搬运成功率 92%;清华 H1 人形 0-1 学习行走 |
| 数字孪生城市 | 中高 | 上海黄浦 220 km² NeRF 城市模型,支持暴雨内涝分钟级推演 |
| XR 交互 | 中 | Apple Vision Pro 2 单眼 4K/120 Hz,空间视频日活>500 万 |
5. 未来趋势(2025-2030)
-
4D 世界模型:从“感知现在”到“预测 5–10 s 未来”,实现因果+反事实推演。
-
视觉-语言-动作(VLA)大模型:单网络端到端输出 3D 感知、语义、控制,支持零样本任务泛化。
-
边缘-云协同空间计算:5G-A/6G+空间光计算,延迟<1 ms,使轻量化大模型在终端实时运行。
-
跨本体迁移:四足→人形→机械臂技能快速迁移,降低数据采集成本 10×。
-
AI 生成 3D 资产 AIGC:2030 年 50% 游戏/影视资产由 AI 生成,带动“空间 UGC”爆发。
-
伦理-技术共进化:把伦理约束嵌入奖励函数与网络架构,实现“价值对齐”的持续监控。
6. 结论与建议
-
科研:重点突破“4D 世界模型+物理一致性”统一框架,解决长时序、多物理耦合难题。
-
产业:构建“真实数据+仿真数据+XR 演示”三位一体飞轮,降低数据成本。
-
政策:加快制定空间数据共享协议、跨域隐私计算与世界模型安全评估标准,抢占全球话语权。
空间智能正把 AI 从“会聊天的代理”升级为“懂世界的伙伴”。随着 3D 大模型、边缘算力与物理 AI 的螺旋上升,我们即将进入“所见即模型、所想即交互”的全新智能时代。
36

被折叠的 条评论
为什么被折叠?



