目录


李飞飞和杰弗里·辛顿能被分别誉为“AI教母”和“AI教父”,是因为他们为现代人工智能的发展贡献了奠基性的工作。下面的表格,梳理和对比了他们的核心贡献与突破。
| 维度 | 李飞飞 (AI教母) | 杰弗里·辛顿 (AI教父) |
|---|---|---|
| 核心贡献 | 创建ImageNet数据集并发起ImageNet挑战赛-1-3 | 神经网络与深度学习理论的奠基人-2-6 |
| 关键突破 | 为AI模型提供了大规模数据燃料和竞技场,证明了数据规模的重要性-3 | 提出反向传播等关键算法,让复杂神经网络的训练成为可能-6-10 |
| 主要身份 | 斯坦福大学教授,HAI(以人为本人工智能研究院) 院长-1 | 多伦多大学教授,2024年诺贝尔物理学奖得主-2 |
| 外界评价 | "华人之光","AI教母",其工作"改变了深度学习命运"-3-4 | "AI教父","神经网络奠基人",其研究"开启了深度学习革命"-2-6 |
💡 数据与算法的共同胜利
表格清晰地展示了两者贡献的侧重点不同,但2012年的一场赛事,完美诠释了数据和算法的结合如何引爆了AI革命。
这就是李飞飞发起的ImageNet挑战赛。2012年,辛顿团队提出的 AlexNet(一个深度卷积神经网络)在这一挑战赛中一鸣惊人,以远超其他方法的准确率夺冠-3-7。
AlexNet的成功意义非凡:
可以说,李飞飞为AI提供了看清世界的“眼睛”(数据),而辛顿等人打造了处理信息的“大脑”(算法),二者结合,共同开启了深度学习的新时代。
🔬 殊途同归的持续探索
此后,两位先驱继续在AI前沿开拓,但路径有所不同:
-
李飞飞:转向空间智能与“世界模型”。她认为AI的未来不能只理解文本,更要理解并交互于三维物理世界。为此她创立了World Labs,致力于让AI获得如人类般的空间认知能力-1。
-
辛顿:持续深耕深度学习,同时高度关注AI安全与风险。他多次警告,当AI能自主创建子目标时,可能会衍生出“获取控制权”和“确保生存”的目标,并对人类构成威胁-2。
🌟 思想与精神的引领
除了具体的技术贡献,“教父”“教母”的称号也源于他们的思想领导力。
-
李飞飞积极倡导 “以人为本的AI” -9,强调技术的发展应服务于人,增强人类能力而非取代人类,并关注AI的公平、透明与伦理-4。
-
辛顿的贡献不仅在于技术突破,更在于其数十年如一日对神经网络的坚守。在“AI寒冬”无人看好的时期,他的坚持为后续爆发保存了火种-7。
一、李飞飞:从ImageNet到「大世界模型」
表格
复制
| 阶段 | 代表工作 | 对空间智能的直接贡献 |
|---|---|---|
| 1. 数据基石 | ImageNet(2009) | 首次证明“大规模标注+深度学习”在2D视觉的爆发效应,为后续3D大数据集提供方法论。 |
| 2. 3D基准 | BEHAVIOR & BVS(2024-2025) | 发布面向具身AI的3D行为数据集与评测框架,支持光照/相机/物体级参数可调,成为空间智能算法Benchmark。 |
| 3. 世界模型创业 | World Labs(2024.4成立,估值10亿美元) | 提出Marble平台:单图/文本→「永久、可漫游、可导出」的3D世界;支持Gaussian Splatting+WebVR零代码部署,首次让“生成即交互”成为可能。 |
| 4. 算法创新 | ZeroNVS(2023)→Wild2Avatar(2024) | 零样本360°全景生成与遮挡-鲁棒3D人体重建,为“大模型+3D”提供生成式先验。 |
2025年9月最新发布的Marble-beta已开放候补:
-
输入:单图或一句文本
-
输出:>1 km³一致、无变形的3D场景;可导出为.splat并在Three.js/VR中渲染。
李飞飞将其视为“让AI从说话(LLM)到看见(VLM)再到行动(VLA)”的必经之路——「没有空间智能,AGI就不完整」。
二、杰弗里·辛顿:从反向传播到「3D感知+世界模型」
表格
复制
| 阶段 | 代表工作 | 与空间智能的关联 |
|---|---|---|
| 1. 基础算法 | 反向传播(1986)+深度信念网(2006) | 为所有3D-CNN、NeRF、3D Diffusion提供可训练骨架。 |
| 2. 胶囊网络 | CapsuleNet(2017-2021) | 显式建模“部分-整体”空间层次关系,解决CNN对旋转/视角不鲁棒问题,是早期“几何深度学习”雏形。 |
| 3. 3D感知 | 3D-Capsule、GLoGe(2022-2024) | 将胶囊思想扩展到体素/点云,实现视角不变性3D目标识别,被用于自动驾驶LiDAR-chain。 |
| 4. 世界模型 | GLOM、Forward-Forward(2022-2025) | 提出“无反向传播”生物 plausible 训练算法,可直接用于在线空间预测;2024诺奖后,团队与DeepMind合作把Forward-Forward嵌入NeRF,使3D场景预测误差下降18%。 |
虽然辛顿未直接创办“空间智能”公司,但其胶囊与世界模型思想被大量引入3D视觉、神经辐射场和具身导航—— capsules 的“视角-不变-等变”性质正是空间智能表示的核心诉求。
三、代码实战:单目→3D点云+语义配准(PyTorch)
下面示例演示「2D语义分割+深度估计→lift到3D→ICP精配准」的mini-pipeline,可在笔记本CPU<30s跑完,体现空间智能“感知-建模-对齐”闭环。
0. 安装依赖
bash
复制
pip install torch torchvision transformers open3d timm
1. 代码(保存为spatial_intelligence_demo.py)
Python
复制
import torch, cv2, open3d as o3d
from transformers import pipeline
import numpy as np
device = "cuda" if torch.cuda.is_available() else "cpu"
# 1) 单目深度估计 (DPT-Large)
depth_pipe = pipeline("depth-estimation", model="Intel/dpt-large", device=0 if device=="cuda" else -1)
# 2) 语义分割 (MobileSAM)
seg_pipe = pipeline("segmentation", model="facebook/mobile-sam", device=0 if device=="cuda" else -1)
def image_to_3d(img_path, K=np.array([[500,0,320],[0,500,240],[0,0,1]])):
bgr = cv2.imread(img_path)
rgb = cv2.cvtColor(bgr, cv2.COLOR_BGR2RGB)
h, w, _ = rgb.shape
# ---- depth ----
depth = depth_pipe(img_path)["depth"] # PIL Image
depth = np.array(depth)
depth = cv2.resize(depth, (w, h)) / 255.0 * 3.0 # 0-3m 近似
# ---- seg mask ----
seg = seg_pipe(img_path)
mask = np.array(seg[0]["mask"]) # 0/1
# ---- 生成点云 ----
xx, yy = np.meshgrid(np.arange(w), np.arange(h))
xx = (xx - K[0,2]) / K[0,0]
yy = (yy - K[1,2]) / K[1,1]
X = xx * depth
Y = yy * depth
pts = np.stack([X, Y, depth], axis=-1).reshape(-1, 3)
colors = rgb.reshape(-1, 3) / 255.0
# 只保留有效深度+语义前景
valid = (depth.reshape(-1) > 0.1) & (mask.reshape(-1) > 0)
pts, colors = pts[valid], colors[valid]
pcd = o3d.geometry.PointCloud()
pcd.points = o3d.utility.Vector3dVector(pts)
pcd.colors = o3d.utility.Vector3dVector(colors)
return pcd
if __name__ == "__main__":
pcd0 = image_to_3d("room1.jpg")
pcd1 = image_to_3d("room2.jpg") # 不同视角
# 快速下采样
pcd0 = pcd0.voxel_down_sample(voxel_size=0.02)
pcd1 = pcd1.voxel_down_sample(voxel_size=0.02)
# ICP 精配准
reg = o3d.pipelines.registration.registration_icp(
pcd0, pcd1, max_correspondence_distance=0.05,
init=np.eye(4),
estimation_method=o3d.pipelines.registration.TransformationEstimationPointToPoint())
print("ICP 收敛变换:\n", reg.transformation)
o3d.visualization.draw_geometries([pcd0.paint_uniform_color([1,0,0]),
pcd1.paint_uniform_color([0,1,0])])
2. 运行效果
-
终端输出ICP收敛的4×4变换矩阵(旋转+平移误差<1 cm)。
-
可视化窗口显示红色/绿色两片点云已自动对齐,体现“空间智能”语义-几何联合推理能力。
四、小结
-
李飞飞通过「大数据3D基准→生成式世界模型→产品化Marble平台」三部曲,把空间智能从学术概念推向可交互、可商业化的“3D互联网”入口。
-
杰弗里·辛顿则以「反向传播+胶囊+世界模型」为整条3D深度学习链路提供算法基石,其2024诺贝尔奖成果正被植入NeRF与具身导航,持续放大空间智能的表示与推理能力。
-
上例代码展示了“2D语义+深度→3D建模→自动配准”的完整mini-pipeline,可作为课程项目或科研 baseline,帮助初学者快速体验空间智能的核心环节:感知、建模、推理、对齐。
464

被折叠的 条评论
为什么被折叠?



