顶级四校联手打造OmniVGGT：全模态视觉几何Transformer！

最新推荐文章于 2025-11-29 23:33:06 发布

转载最新推荐文章于 2025-11-29 23:33:06 发布 · 96 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247685650&idx=4&sn=4381a4ce1088758d3ee26c30518837ed&chksm=cf5ffaf8c7caac012088f61f935fbda35bb10bad6db595801b1f77f7bd218b228bfd90807cfe&scene=126&sessionid=0

文章标签：

#transformer #深度学习 #人工智能

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

一、为啥需要“全能多模态”3D模型？

现在主流3D基础模型（比如VGGT）能统一处理多种3D任务，但有个大问题：只认RGB图像，不用深度、相机参数这些“送分题”信息。

实际应用中，辅助信息随处可见：VR/AR有RGB-D数据、自动驾驶有激光雷达点云、机器人有相机参数，但现有方法要么只能用一种辅助信息，要么最多处理两种（比如RGB+深度），没法灵活适配不同场景。

我们提出OmniVGGT，一个能在训练和推理时灵活利用任意数量辅助几何模态的框架。

文章标题：OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer

项目链接：https://livioni.github.io/OmniVGGT-offcial/

核心创新有两个：

GeoAdapter（几何适配器）：用零初始化卷积将深度、相机参数等几何信息逐步注入基础模型，不破坏原有特征空间，计算开销极小，推理速度和原模型VGGT差不多；
随机多模态融合策略：训练时随机采样模态子集，让模型在测试时能接受任意数量的模态输入，学到更鲁棒的空间表示，不会过度依赖辅助信息。

实验表明，OmniVGGT在单目/多视图深度估计、多视图立体匹配、相机位姿估计等任务上都达到顶尖水平，甚至只用RGB输入也比现有方法好。更实用的是，把它集成到视觉-语言-动作（VLA）模型中，还能显著提升机器人操作任务的性能。

图1：OmniVGGT核心效果

这张图展示了框架的灵活性：输入任意数量的辅助几何模态（深度、相机内参/外参），都能输出高质量3D几何结果；集成到VLA模型后，机器人操作任务的表现也大幅提升。

OmniVGGT就是要解决“信息浪费”和“适配性差”的问题——不管有多少种、多少比例的辅助信息，都能充分利用，还不影响纯RGB输入时的性能。

图2：OmniVGGT整体流程

这张图清晰展示了工作逻辑：输入图像集+任意数量的相机参数（位姿/内参）或深度图，缺失的辅助信息用占位符令牌替代；经过L层交替注意力网络处理后，通过三个预测头输出深度图、相机位姿和3D点云图，全程端到端完成。

二、核心技术：GeoAdapter+随机融合，灵活又高效

1. 基础：VGGT的核心逻辑

OmniVGGT基于VGGT改进，先简单了解VGGT的流程：

图像先通过DINO骨干网络转换成空间令牌；
空间令牌和可学习的相机令牌、注册令牌拼接，输入Transformer编码器；
编码器用交替注意力（AA）机制：帧内自注意力捕捉单图结构，全局自注意力聚合多视图信息；
最后用DPT头预测深度图、3D点云图和置信度图，相机头预测相机内参和外参。

2. GeoAdapter：优雅注入多模态信息

GeoAdapter分相机适配器和深度适配器，专门解决“不同模态怎么融合”的问题，轻量又稳定。

（1）相机适配器：处理全局相机参数

相机参数（内参、外参）是全局信息，直接注入容易打乱模型特征，所以用零卷积逐步融入：

坐标归一化：把第一个相机设为原点，计算其他相机到原点的平均距离，统一缩放平移量：
参数编码：把内参、归一化后的位姿转换成特征向量（是旋转四元数，是平移向量，是视场角）；
零卷积注入：每个AA块前，用相机编码器生成辅助令牌，再通过零卷积加到原相机令牌上：

是二进制指示器（1表示有相机信息，0则用占位符令牌）。

（2）深度适配器：处理稠密深度图

深度图是逐像素的局部信息，直接注入更高效：

深度归一化：按批次计算有效深度的均值，归一化后和掩码拼接：；
令牌对齐：用卷积编码器将转换成和空间令牌维度一致的辅助令牌；
直接相加：有深度信息就加辅助令牌，没有就加深度占位符令牌：

是二进制指示器（1表示有深度信息），实验证明深度分支不用零卷积，融合效果更好。

3. 随机多模态融合：支持任意输入组合

训练时故意“随机缺信息”，让模型适应各种场景：

对相机信息：随机采样（是序列长度），只给前张图标注相机参数；
对深度信息：独立随机采样，随机选张图标注深度；
纯RGB场景：部分批次（概率）只输入RGB图像，保证无辅助信息时也能工作。

4. 损失函数：多任务联合优化

总损失包含三个部分，和VGGT一致：

：相机参数预测的L1损失；
和：置信度感知回归损失+梯度项，保证局部几何一致性。

三、实验效果：全能选手，样样顶尖！

我们用19个公开数据集训练（覆盖室内/室外、真实/合成、静态/动态场景），在多个3D任务上做了全面测试，结果超惊艳。

核心图表解读

表1：辅助信息比例的影响（Sintel数据集）

这张表验证了灵活性：辅助信息越多，性能越好，而且不同类型辅助信息能互补：

只加30%深度信息：深度估计的绝对相对误差（Abs Rel）就降低0.408，效果显著；
加100%相机+100%深度信息：相机位姿的AUC@30°达85.99%，比无辅助信息提升15.16%；
纯RGB输入时，OmniVGGT也比VGGT基线好，证明GeoAdapter没有副作用。

图3：不同辅助信息的视觉效果

这张图很直观：

加相机信息：能修正几乎无重叠的复杂场景的位姿；
加深度信息：门等局部几何更精准；
两者都加：相对距离和视角都能正确校正，重建效果最棒。

表2：单视图深度估计（Sintel、Bonn、NYU-v2数据集）

OmniVGGT不管有没有辅助信息都领先：

纯RGB输入：Sintel数据集的（符合要求的像素比例）达68.2%，比VGGT高0.5个百分点；
加100%深度信息：Bonn和NYU-v2数据集的达99.9%，几乎完美，远超其他方法。

表3：多视图深度估计（ScanNet、ETH3D等数据集）

多视图场景下优势更明显：

纯RGB输入：ScanNet的相对误差（rel）3.6，和VGGT相当，ETH3D的达87.5%，略高于VGGT；
加100%深度信息：ETH3D的rel仅0.5，达98.7%，DTU数据集的达99.5%，全面碾压其他方法。

表4：相机位姿估计（RealEstate10K、CO3Dv2数据集）

速度和精度双领先：

纯RGB输入：RealEstate10K的AUC@30°达85.9%，比VGGT高0.6个百分点；
加相机参数：CO3Dv2的AUC@30°达93.4%，远超Pow3R的82.2%；
速度：OmniVGGT仅需0.2秒，比Pow3R快30倍以上。

表5：3D重建（7-Scenes数据集）

稀疏视图场景表现惊人：

纯RGB输入：精度（Acc）0.104，和VGGT相当；
加100%相机参数：Acc降至0.037，比纯RGB提升64.4%；
加相机+深度信息：Acc仅0.036，完整性（Comp）0.036，正常一致性（NC）0.912，全面领先所有基线。

图4：7-Scenes等数据集的视觉对比

这张图展示了极端场景的表现：即使图像几乎无重叠，OmniVGGT加辅助信息后也能保持准确的空间关系和几何一致性，重建效果比其他方法更逼真。

表6：机器人操作任务（CALVIN数据集）

集成到VLA模型后效果显著：

加深度信息：ABCD→D任务的平均连续完成数（Avg.Len.）达4.08，比基于点云的基线高0.04；
纯RGB输入：零样本场景的Avg.Len.达3.92，比Kosmos-VLA基线高0.43，证明学到的空间表示更鲁棒。

表7：GeoAdapter架构消融实验

验证了核心设计的有效性：

直接替换相机令牌（Replace）：性能最差，破坏了原有特征；
单层适配器（One-Layer Adapter）：无法充分利用辅助信息，效果不如OmniVGGT；
深度加零卷积（Depth ZeroConv）：把深度信息当噪声，性能下降；
完整OmniVGGT：各项指标最优，证明零卷积注入相机信息、直接注入深度信息的设计最合理。

四、总结：3D基础模型的“全能辅助”

OmniVGGT的核心价值在于“灵活”和“兼容”：

输入灵活：任意数量、任意组合的辅助几何模态都能利用；
性能强大：纯RGB输入比现有方法好，加辅助信息后更是全面顶尖；
实用高效：计算开销小，推理速度快，还能无缝集成到VLA模型，提升机器人任务性能。

未来可以扩展到更复杂的动态场景，进一步挖掘多模态融合的潜力，让3D基础模型更适应真实世界的多样输入。

【3D视觉&具身智能】技术交流群

我们创办了3D与具身智能、机器人相关的社群！聚焦三维重建、Nerf、点云处理、SLAM、多传感器标定、多传感器融合、摄影几何、VLA、视觉语言导航、强化学习、具身大小脑、机器人本体、sim2real、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【具身智能之心】知识星球

具身智能之心知识星球是国内首个具身智能开发者社区，也是最专业最大的交流平台，近2000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、Diffusion Policy、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、各类学习路线等，涉及当前具身所有主流方向。