CVPR 2025 | 拿下多个第一!MonSter:双目深度估计大模型

本文介绍了MonSter,一种用于立体深度估计的基础模型,旨在利用单目深度估计和立体匹配的互补优势,解决现有立体匹配方法难以处理匹配线索有限的不适定区域,如遮挡、无纹理、细结构、反光等区域,在提升精度的同时增强泛化性能。通过双分支结构,循环迭代优化单目深度与双目深度,并设计了“单目引导增强(MGR)”和“立体引导对齐(SGA)”的模块,充分结合两分支深度的优势。实验结果表明,MonSter在五个最常用的benchmark上均达到SOTA——Sceneflow、KITTI 2012、KITTI 2015、Middlebury和ETH3D。在泛化性方面,MonSter仅仅使用少量公开训练集就达到最优水准。

相关论文 MonSter: Marry Monodepth to Stereo Unleashes Power 获得 CVPR 2025 Highlight,代码已开源。

论文地址:https://arxiv.org/abs/2501.08643

项目代码:https://github.com/Junda24/MonSter

目前 MonSter在 ETH3D, KITTI 2012, KITTI 2015等多个排行榜位列第一/并列第一。

KITTI 2015: 

图片

KITTI 2012:

图片

ETH3D:

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值