空间智能模型See3D：You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

最新推荐文章于 2025-09-16 07:00:00 发布

原创

最新推荐文章于 2025-09-16 07:00:00 发布 · 1.8k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#3d #计算机视觉 #AIGC #computer vision #人工智能

最近image-to-3D方面的工作不少，李飞飞 (Fei-Fei Li) 创立的公司World Labs发布了一项单图生成交互3D场景的成果：Generating Worlds。同期，智源(BAAI)也发表了一篇image-to-3D的成果：See3D。下面就来详细解读这篇paper

1. 3D生成现状

目前的3D生成方法主要有两类：naive 3D generation（直接生成3D asset）和2D diffusion lifting（利用二维扩散模型先生成多视角图像，再lift到三维）。目前的3D生成效果还是不够理想，最主要限制来自于数据量。目前主流3D数据集的数据量级都小于百万级(<1M)，对比训练二维扩散模型的亿级数据量，显然是太少了。为了借助diffusion priors获得更高生成质量，目前2D diffusion lifting这一方法比较常见。然而2D diffusion是在二维图像上训练的，模型里是缺少3D priors的，不能保证对多个视角的生成内容完全一致。

See3D就对以上两个问题：数据量小、多视角不一致进行优化。

2. See3D方法详解

2.1）针对数据量小的问题：Video Data Curation

人类对所处的三维空间的感知是通过对物体的多角度观察而形成的，而互联网海量视频数据其实可以提供类似的知识。所以一个自然的思路就是获取互联网上对同一个观察对象的多角度拍摄视频，那么这类视频的每一帧都可以作为同一对象的多视图图像。那么接下来要做的就是从互联网海量视频中筛选出符合要求的数据，我们的要求可以具体列为以下几点：

1. 是对同一个物体的观察。
2. 多视图之间保持一致性。那么观察对象必须做刚性运动（保持形状不变）
3. 观察视角尽量多。变化角度小的视频只能提供少量视角的图像，对模型训练意义不大

作者设计了一个自动化的pipeline来筛选数据，核心步骤有四步：

a) Temporal-Spatial Downsampling. 这一步主要是为了提高pipeline效率，将空间分辨率下采样到480p，时间下采样率设置为2。
b) Semantic-Based Dynamic Recognition.这一步主要是为了筛选出static scenes，保证是对同一对象拍摄的视频。采用Mask R-CNN生成潜在对象的masks，滤除包含潜在对象的视频帧百分比低于阈值的。
c) Non-rigid Dynamic Filtering. 这一步主要是为了保持多视角一致性。See3D的目的是生成静态的3D asset，如果观察对象在相机移动的过程中姿态发生了变化，比如人在挥手，那么根据多视角图像生成3D asset的时候就无法决定手到底在什么位置了，这种就是非刚性运动类的视频，需要删除。
d) Tracking-Based Small Viewpoint Filtering. 根据前三个步骤可以筛选出观察同一个对象的静态场景的多视角视频，但是还无法保证有足够多的观察视角，这就是这一步的目的。通过光流法计算关键点的运动轨迹，计算运动轨迹对应的最小外切圆半径，半径小的表示视角变化不大，需要滤除。

经过上面四步就能自动筛选出满足我们要求的视频。通过这个pipeline，最终筛选出了15.99M大小的数据集，总时长约四年半。相比之前的数据集规模(<1M)，这个数据集大了两个数量级，这对训练出具有强3D生成能力的扩散模型是非常重要的。

最低0.47元/天解锁文章