- 博客(6)
- 收藏
- 关注
原创 论文阅读 Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation(2025 CVPR)
AoTD方法,通过将Agent系统生成的多步骤推理链(CoT)蒸馏到视频多模态大模型(Video-LLM)中,提升模型的时空推理能力。
2025-12-02 20:54:38
910
原创 单目深度估计【04】2019重要论文解读
Tom 团队以 2017–2018 年 CVPR 上发表的四个模型为研究对象进行实验,结果表明,这些网络在深度预测中并不依赖物体的表观尺度信息,而是在训练过程中隐式学习了训练集上相机姿态的信息(如相机离地高度或地平线高度),并通过物体在图像中的垂直位置推断深度。以 MonoDepth 为例,由于训练主要在 KITTI 数据集上进行,模型将物体底部的阴影视作判断物体与地面接触的重要依据。这一特性有利也有弊:一方面,模型展现出类似人类的推理能力,不会将显然贴在图像上的物体视作场景中真实存在的物体;
2025-08-22 22:49:02
1991
原创 单目深度估计【03】MonoDepth2 与 DfVW 论文详解
从 17 年 MonoDepth 与 SfMleaner 两篇论文发布后,无监督/自监督深度估计模型的构建基本都依赖成像几何有关的先验知识。 三篇文章各自做出了自己的贡献,尽管也存在一定不足,但是确实大大拉近了 MonoDepth 与 SfMLeaner 之间的差距。 本文将继续介绍19年发布的在这方面的相关文章,在这一年中,我们欣喜的看到这些不足被进一步的解决。
2025-08-06 18:40:52
2099
原创 单目深度估计【02】优化 SfMLearner——18年,CVPR做了哪些努力?
SfMLearner 通过最小化单目视频数据集中的,分别训练了和。尽管取得了令人印象深刻的结果,但这种策略与使用进行训练的 MonoDepth 相比,仍有明显差距。 但我们上次也说到,基于的方法依赖于,这限制了其应用场景,无法利用获取更容易、内容更丰富的单目视频。因此在后续两三年的研究中,如何让 SfMLearner 取得相当于 MonoDepth 的结果是一大研究方向。 本文将介绍在接下来的一年内,一些学者在这个方向上做出的努力。
2025-07-28 20:24:03
955
原创 单目深度估计【01】从 MonoDepth 与 SfMLeaner 说起
单目深度估计(Monocular Depth Estimation)一直是视觉领域中的一个基础而关键的问题——它试图仅通过一张普通的 RGB 图像,还原出三维场景的几何结构。相比需要昂贵深度传感器或标注数据的传统方法,16、17年来不少研究开始转向自监督学习,探索更灵活、可扩展的训练方式。 在这篇笔记中,我整理了两篇在CVPR 2017上发表的重要工作:MonoDepth 和 SfMLearner。它们分别代表了当时两个典型的方向:一个基于双目图像的视差建模,另一个基于视频序列的时空几何约束。两者都试
2025-07-23 20:19:58
1188
原创 OpenCV保姆级入门 【01】| 用简单的代码学习计算机视觉
OpenCV(Open Source Computer Vision Library)是一个开源计算机视觉和机器学习软件库。它由一系列编程函数组成,主要用于实时计算机视觉。OpenCV最初由Intel开发,现在由Willow Garage和Itseez维护。OpenCV支持多种编程语言,如C++PythonJava等,并且可以在不同的平台上使用,包括WindowsLinuxOS XAndroid和iOS。本文将简单介绍,它是OpenCV的Python API。依赖于Python。
2024-11-13 22:07:23
2319
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅