一、研究背景与核心创新
1.1 传统3D视觉的局限性
传统3D重建方法严重依赖基于优化的视觉几何技术,如Bundle Adjustment(BA),这些方法虽然效果显著但计算成本高昂且流程复杂。近年来,虽然出现了DUSt3R、MASt3R等深度学习模型,但它们通常只能处理两幅图像且需要后处理优化。
1.2 VGGT的革命性突破
VGGT(Visual Geometry Grounded Transformer)首次实现了前馈式端到端的多视图3D属性联合预测,能够同时处理从单张到数百张输入图像,在不到一秒内完成相机参数、点云图、深度图和3D点轨迹的联合预测。
二、模型架构设计
2.1 整体架构概览
VGGT基于标准的Transformer架构,摒弃了特定的3D归纳偏置,仅通过交替使用帧内自注意力和全局自注意力层来学习3D几何关系。

2.2 交替注意力机制(Alternating-Attention)
创新设计:交替使用两种自注意力模式:
- 帧内自注意力:在每个图像帧内进行token间注意力计算
- 全局自注意力:跨所有图像帧进行全局注意力计算
这种设计平衡了帧内特征整合和跨帧信息交互,共使用L=24层注意力层。
2.3 多任务预测头设计
相机预测头:从相机token预测相机外参(旋转四元数、平移向量)和内参(焦距)
密集预测头:使用DPT(Dense Prediction Transformer)上采样技术生成:
- 深度图 Di∈RH×WD_i \in R^{H\times W}Di∈RH×W
- 点云图 Pi∈R3×H×WP_i \in R^{3\times H\times W}Pi∈R3×H×W(在第一相机坐标系下)
- 点追踪特征 Ti∈RC×H×WT_i \in R^{C\times H\times W}Ti∈RC×H×W
2.4 坐标系统一化
关键设计:将所有预测统一到第一帧相机的坐标系中,通过特殊的相机token和注册token来标识第一帧,确保3D预测的坐标系一致性。
三、训练策略与损失函数
3.1 多任务损失函数
L=Lcamera+Ldepth+Lpmap+λLtrack\mathcal{L} = \mathcal{L}_{camera} + \mathcal{L}_{depth} + \mathcal{L}_{pmap} + \lambda\mathcal{L}_{track}L=Lcamera+Ldepth+Lpmap+λLtrack
其中λ=0.05\lambda=0.05λ=0.05用于平衡追踪损失的权重。
3.2 各损失项详解
- 相机损失:使用Huber损失比较预测相机参数与真值
- 深度损失:结合深度误差和梯度误差,采用不确定性加权
- 点云图损失:与深度损失类似,关注3D点位置精度
- 追踪损失:监督点轨迹的2D对应关系预测
3.3 数据增强与训练优化
- 大规模数据集:融合Co3Dv2、BlendMVS、DL3DV等17个数据集
- 强数据增强:独立每帧的颜色抖动、高斯模糊、灰度化
- 高效训练:使用64张A100 GPU训练9天,支持BF16精度和梯度检查点
四、实验结果与性能分析
4.1 相机姿态估计领先优势
表1:RealEstate10K和CO3Dv2数据集上的相机姿态估计结果
| 方法 | RealEstate10K AUC@30 | CO3Dv2 AUC@30 | 推理时间 |
|---|---|---|---|
| DUSt3R | 67.7 | 76.7 | ~7s |
| MASt3R | 76.4 | 81.8 | ~9s |
| VGGSfM v2 | 78.9 | 83.4 | ~10s |
| VGGT(前馈) | 85.3 | 88.2 | ~0.2s |
| VGGT+BA | 93.5 | 91.8 | ~1.8s |
VGGT在纯前馈模式下已超越所有需要后处理优化的方法,结合BA后优势更加明显。
4.2 多视图深度估计卓越表现
表2:DTU数据集上的深度估计结果
| 方法 | 需要真值相机 | Accuracy↓ | Completeness↓ | Overall↓ |
|---|---|---|---|---|
| GeoMVSNet | √ | 0.331 | 0.259 | 0.295 |
| DUSt3R | × | 2.677 | 0.805 | 1.741 |
| VGGT | × | 0.389 | 0.374 | 0.382 |
VGGT在不依赖真值相机的情况下,达到了与需要真值相机的方法相媲美的性能。
4.3 点云图估计质量验证
表3:ETH3D数据集点云估计结果
| 方法 | Accuracy↓ | Completeness↓ | Overall↓ | 时间 |
|---|---|---|---|---|
| DUSt3R | 1.167 | 0.842 | 1.005 | ~7s |
| MASt3R | 0.968 | 0.684 | 0.826 | ~9s |
| VGGT(点云头) | 0.901 | 0.518 | 0.709 | ~0.2s |
| VGGT(深度+相机) | 0.873 | 0.482 | 0.677 | ~0.2s |
4.4 图像匹配与点追踪增强
表4:ScanNet-1500两视图匹配结果
| 方法 | AUC@5↑ | AUC@10↑ | AUC@20↑ |
|---|---|---|---|
| Roma | 31.8 | 53.4 | 70.9 |
| VGGT | 33.9 | 55.2 | 73.4 |
VGGT在点追踪任务中显著提升了CoTracker等现有追踪器的性能,证明了其学习特征的泛化能力。
五、消融研究与技术分析
5.1 注意力机制有效性验证
表5:交替注意力架构消融实验(ETH3D)
| 架构 | Accuracy↓ | Completeness↓ | Overall↓ |
|---|---|---|---|
| 交叉注意力 | 1.287 | 0.835 | 1.061 |
| 纯全局自注意力 | 1.032 | 0.621 | 0.827 |
| 交替注意力 | 0.901 | 0.518 | 0.709 |
5.2 多任务学习协同效应
表6:多任务学习消融研究
| 训练配置 | Accuracy↓ | Completeness↓ | Overall↓ |
|---|---|---|---|
| 无相机损失 | 1.042 | 0.627 | 0.834 |
| 无深度损失 | 0.920 | 0.534 | 0.727 |
| 无追踪损失 | 0.976 | 0.603 | 0.790 |
| 完整多任务 | 0.901 | 0.518 | 0.709 |
5.3 计算效率分析
表9:不同帧数的运行时和内存使用
| 输入帧数 | 时间(秒) | 内存(GB) |
|---|---|---|
| 2 | 0.05 | 0.04 |
| 10 | 0.14 | 3.63 |
| 50 | 1.04 | 11.41 |
| 100 | 3.12 | 21.15 |
| 200 | 8.75 | 40.63 |
六、下游任务应用表现
6.1 前馈新视角合成
VGGT在GSO数据集上的新视角合成任务中表现出色,即使不使用输入图像的相机参数,仅使用20%训练数据就达到竞争性性能:
表7:GSO数据集新视角合成结果
| 方法 | 已知输入相机 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|
| GS-LRM | √ | 29.59 | 0.944 | 0.051 |
| LVSM | √ | 31.71 | 0.957 | 0.027 |
| VGGT-NVS* | × | 30.41 | 0.949 | 0.033 |
6.2 动态点追踪增强
将VGGT预训练特征骨干集成到CoTracker中,在TAP-Vid基准测试中显著提升性能:
表8:动态点追踪结果
| 方法 | Kinetics AJ↑ | RGB-S AJ↑ | DAVIS AJ↑ |
|---|---|---|---|
| CoTracker | 49.6 | 67.4 | 61.8 |
| CoTracker+VGGT | 57.2 | 72.1 | 64.7 |
七、技术贡献与影响
7.1 核心技术创新
- 前馈式多任务3D预测:首次实现端到端的多视图3D属性联合预测
- 最小3D归纳偏置:证明纯Transformer架构可有效学习复杂3D几何关系
- 交替注意力机制:平衡帧内特征学习和跨帧几何推理
- 大规模多数据集训练:融合17个数据集实现强泛化能力
7.2 实际应用价值
- 实时3D重建:0.2秒内处理数百张图像,适合实时应用
- 下游任务增强:预训练特征显著提升追踪、合成等任务性能
- 优化初始化:为传统BA优化提供高质量初始值,加速收敛
7.3 局限性及未来方向
当前限制:
- 不支持鱼眼或全景图像
- 极端旋转输入下性能下降
- 对大幅非刚性运动处理有限
未来方向:
- 扩展至更广泛的相机模型
- 增强非刚性场景处理能力
- 探索完全自监督训练范式
VGGT代表了3D计算机视觉向完全基于学习范式转变的重要里程碑,为构建可扩展的3D基础模型奠定了坚实基础。
5763

被折叠的 条评论
为什么被折叠?



