综述精读 | 上海交通大学：机器人3D表征的50年迭代史

原创于 2025-12-19 17:39:10 发布 · 439 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#机器人

「点击加入交流群」

3D表征的“半生”

——复盘：50年技术发展史

机器人如何理解三维世界？

它需要的是毫米级的精确坐标，还是带有语义的物体概念？它应该构建一个可测量的空间地图，还是一个能推理和规划的认知模型？

这并非一个单纯的技术选择题，而是贯穿机器人感知领域50年的根本张力。上海交通大学等团队的最新综述，系统梳理了这段演进历史：

从只能判断 “有无障碍” 的 2D 网格；

到用点云、体素、SDF 勾勒轮廓的初代 3D 表征

再到能 “脑补” 遮挡物、渲染照片级画面的 NeRF、3DGS；

最后到能听懂语言、零样本决策的 3D 基础模型。

每一种表征的进化，都是一次对“机器人应如何看世界”的重新定义。然而，技术的迭代并未终结一个核心争论：

究竟什么才是机器人真正需要内置的“世界观”？

站在这个十字路口，我们需要的不仅是对历史的回顾，更是对前路的冷静审视。

这篇文章将完整梳理这场贯穿半个世纪的“视觉进化”背后，那些未被充分讨论的权衡、代价与真正关键的技术抉择。

追本溯源，3D 场景表征不是凭空发明的，每一代技术都是为了解决当时机器人的 “痛点”，所以理解当下技术，得先知道过去的机器人到底 “缺什么”。

上世纪 70～90 年代，机器人普遍使用的是 2D 栅格地图（grid map）

在一个平面上划分成无数小格子，每个格子只有两种状态 —— 能走 or 不能走。

就像扫地机器人一样，“撞一下再记住”——

缺乏细节、没有语义，只能描述“此处有墙”。

▲图2｜用于机器人导航及路径规划的传统2D栅格地图。

如图所示，地图将机器人周围的环境按照一定分辨率离散为一个个小的栅格，每个格子只有两种状态（注：后续研究中栅格的状态信息也逐渐丰富，但我们在此只介绍最基础的类型），即“占据”与“未占据”。其中占据即表明该栅格区域存在障碍，无法通行。

此类地图一般由机器人的SLAM系统得到，能够十分直观的反映机器人周围的环境状态，因此在相当长的时间里作为机器人理解三维空间的底层表征。

进入2000年左右，激光雷达和深度相机逐渐普及，第一代真正意义上的3D表征出现了

以下方法共同构成了早期 3D 场景表征的核心框架：

Point Cloud（点云）：通过离散的三维点集合直接刻画物体或场景表面，是传感器数据的直接映射；
Voxel（体素）：将三维空间离散为规则的小立方体网格，通过网格单元存储密度、特征等信息，实现结构化的场景建模；
Mesh（网格）：利用三角面片拼接形成连续的物体表面，能精准还原几何形态；
SDF（带符号距离场）：采用隐式数学函数描述空间，通过输出点到物体表面的距离及内外符号，实现光滑且连续的几何表征。

在很长一段时间里，这套体系支撑了几乎所有的机器人任务——SLAM、导航、避障、自动驾驶、机械臂。

但随着机器人任务越来越接近真实世界，“几何正确”已经不够了。

例如，一个家庭机器人面对厨房，会遇到一连串只有人类才能理解的问题：

“锅盖在哪一层？”

“椅子挡住了冰箱门吗？”

“桌子下面是不是藏着一只猫？”

这些问题不是几何关系能完全描述的，它需要 “理解”。

而机器人的下一次飞跃，就从这里开始。

近10年，3D 表征变得比以往更重要

过去十年，人工智能在视觉、语言、推理上的突破，让机器人第一次有机会接近“通用智能”。

但当我们尝试让这些能力落地到实体机器人身上时，一个现实问题横在面前：

语言模型很强，但机器人不生活在文本里，而是在真实的三维世界里。

机器人要完成任何任务 —— 找到杯子、绕过桌子、穿过门、搬起箱子 —— 都必须依赖一个能够支持：几何、语义、推理的世界表示方式。

这件事情看似分散，本质上却完全依赖同一个底层——

机器人如何表示三维世界？

可以这么理解：3D 场景表征是机器人能力的“共同基础”。

基础越强，上层能力越强；基础越弱，越难实现真正的具身智能。

因此，从技术系统到产业应用，大家都在问同一个问题：

有没有一种更统一、更强大的 3D 表征，可以给机器人提供类似“认知地图”的能力？

——答案，藏在最近三年最火的三项技术中。

▲图3｜三维表征研究热度变化。

从 NeRF 到 3DGS，再到大模型。

点云：一切三维技术的起点

点云之所以几十年不过时，是因为它有三个优点：

足够准确、足够稳定、适合 SLAM/自动驾驶。

但问题也明显：

太稀疏、缺少连续表面、看不懂“这是桌子还是箱子”。

点云就像机器人世界的“素描”：真实，但信息有限。

NeRF：让机器人第一次拥有“连续的世界”

NeRF（Neural Radiance Field）最大的“改变”不是画得好，而是：

它让机器人第一次可以“想象”一个连续、真实的三维世界。

它的优势是：

可以从任意角度生成真实画面；可以补全机器人看不见的地方；表示的是“连续空间”，不是离散点。

这对具身智能来说非常关键——

虽然NeRF 没让机器人拥有 “意识”，但让它第一次能像人一样，在 “脑子里” 构建出一个完整、连贯且可推演的环境模型。

▲图4｜三维场景表征如何支撑机器人的核心能力。这张图展示了三维场景表征在机器人系统中的位置：它是感知、建图、定位以及操作等能力的共同基础。从“看见世界”到“在世界中行动”，机器人所有核心能力都建立在这一底层表示之上

但 NeRF 的问题也很现实：

训练太慢、推理太慢、算力需求大、工程落地难。

于是，它开启了第二次场景表征革命。

3D Gaussian Splatting：速度时代的答案

如果说 NeRF 带来“连续世界”，那么 3DGS 带来的就是——

连续世界的实时化。

3DGS 把场景拆成数量巨大的透明“小气泡”（高斯球体），通过一种新型渲染方式让画面飞快呈现：

渲染快（能达到 1080p 30fps）、精度高、适合移动机器人进行实时建图

你也可以把它理解为：NeRF 的画质 + 点云的速度 = 3DGS

也因此，在近两年的机器人研究中，3DGS 是热度最高的新技术之一。

▲图5｜神经三维表征的技术谱系与未来方向：这张图总结了神经三维重建的三大代表路线：NeRF、3D 高斯表示以及基于椭球体的体积渲染。它们共同构成了当前三维表征研究的主要分支，也代表了未来可能融合发展的方向

基础模型：下一代机器人的“三维大脑雏形”

这一部分可以说是整个具身智能领域最令人期待的方向。

为什么这么说？

因为它把三维世界变成一种“可推理的语言”。

前面我们提到的传统表征：

点云 = 点

NeRF = 网络参数

3DGS = 高斯球体

而基础模型把三维场景编码成 token（类似自然语言）

这意味着机器人可以：

用语言询问三维世界、在大模型中进行空间推理、用文本引导三维任务（如“从桌子下面绕过去”）；
实现真正的零样本导航、灵样本操作。

这是人类第一次尝试为机器人构建一种统一的、可泛化的三维认知格式。

但挑战同样巨大：

模型规模太大、训练数据昂贵、几何精度仍不如传统方法。

▲图6｜不同三维表示技术的特点对比。图中从多个维度比较了主流三维表征方式，包括数据形式、是否连续、占用内存、真实感、灵活性以及能否精确表达几何结构。不同方法各有优缺点，这也是为什么今天的机器人往往需要多种表征“混合使用”

近年来有个明显趋势：语言模型的理解能力持续升级，机器人的动作控制愈发稳定，能应对的任务也越来越复杂。

但真正让机器人从 “机械执行指令” 跨越到 “自主决策行动” 的，核心是新三维表征体系的突破——

它第一次让机器人打通了 “视觉 - 语言 - 动作” 的完整链条，这正是具身智能的核心，也是当前 Vision-Language-Action（VLA）领域研究的核心灵感来源。

▲图7｜基于神经三维表征的机器人导航示例：这张图展示了如何利用神经三维表征完成机器人导航任务。通过在连续、可补全的三维世界中规划路径，机器人能够更自然地理解环境结构，从而执行更复杂、更多约束的导航操作

回顾过去五十年：

机器人从 2D 网格走向点云、从点云走向 NeRF；从 NeRF 走向 3DGS；今天又迈向基础模型。

过去的机器人是“记录世界”：看到什么，存什么；

现在的机器人开始“理解世界”：能补全、能推理、能联想；

未来的机器人会“表达世界”：把场景变成语言，把语言变成行动，把行动变成智能。

对于具身智能而言，3D 场景表征不是什么“一个模块”，而是整个系统能力的底座……

Ref

论文标题：What Is The Best 3D Scene Representation forRobotics? From Geometric to Foundation Models

论文地址：Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen

论文链接：https://arxiv.org/pdf/2512.03422v1

「点击加入交流群」