自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 SAM2MOT基于SAM2的多目标追踪

旨在通过学习到的关联网络增强身份一致性,核心是通过查询(Query 机制建模目标身份:例如,用一个初始查询(如第一帧中目标的特征)持续追踪该目标在后续帧中的位置,通过专门学习的 “关联网络”(而非传统的手工设计规则)来匹配跨帧目标。核心局限是严重依赖大量的标注的MOT数据,其生成的query,匹配的逻辑需通过海量的视频跟踪标注数据的训练,然而现实场景缺乏此类数据集,导致在数据稀缺的场景中性能下降明显,实用性受限制。而本文则使用一种新的多目标跟踪范式,采用SAM2强大的分割自跟踪能力来实现对多目标的跟踪。

2025-10-15 09:52:12 996

原创 详解GCD:增量目标检测

论文地址:发表期刊:2025年AAAI论文概述:增量目标检测(IOD)是一项具有挑战性的任务,它要求检测模型不断从新到达的数据中学习。这项工作的重点是视觉语言检测器(VLDs)的增量学习,这是一个未开发的领域。现有的研究通常采用局部对齐范式来避免标签冲突,其中不同的任务是单独学习的,没有交互。然而,我们发现,这种做法未能有效地保持语义结构。具体来说,当处理新的类别时,对象和文本之间的对齐关系会崩溃,最终导致灾难性的遗忘。

2025-05-06 20:25:48 2499

原创 详解LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation

论文地址:发表期刊:2025年CVPR论文概述:在大规模视觉文本数据上训练的大型基础模型,能够通过数据生成的方式显著提升开放词汇目标检测(OVD)的效果。简单来说,就是这些模型利用大量的图像和文本数据,生成新的数据来帮助 OVD 更好地识别物体。不过,这种方式也存在问题,生成的合成数据可能会有偏差,而且模型容易过度拟合特定的配置。而直接利用大语言模型(LLMs)的隐藏状态,能够避开人工策划数据生成带来的偏差。但令人惊讶的是,这方面的研究少之又少。

2025-04-16 13:59:50 956

原创 详解LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

本文提出 LaMI-DETR 用于开放词汇目标检测,旨在解决现有方法中概念表示不足和对基础类别过拟合的问题。通过 GPT 构建视觉概念、T5 研究类别间视觉相似性来提取类别间关系,优化概念表示并避免过拟合。

2025-04-04 11:32:27 971

原创 详解CP-DETR:概念提示引导DETR实现更强的通用目标检测

为解决该问题,提出了一种强通用的检测基础模型CP-DETR,该模型仅需一个训练前权值,在几乎所有场景下都具有较好的性能.具体地说,我们设计了一个高效的提示视觉混合编码器,通过逐尺度和多尺度融合模块来增强提示和视觉之间的信息交互。在DETR架构中,分类和位置损失都在对象查询上实现,但是由于对象查询的数量远远小于 图像特征的数量,并且使用一对一的集合匹配方式,每个对象对应一个目标或背景,导致编码器输出的特征在训练时候接收到的监督信号比较稀疏,从而影响模型跨膜太跨尺度交互结果。

2025-03-29 10:58:26 2541

原创 VSCODE中集成​Anaconda 扩展包,确保终端能识别 Conda 路径

未正确配置 Conda 环境切换功能。原因是 Conda 的环境变量未集成到当前 Shell 中,需要通过。重新打开PowerShell,验证命令。输入下面代码,路径修改为自己路径。初始化 Shell 配置。保存以后即可使用啦。

2025-03-16 17:20:24 558

原创 下载pytorch加速

以CMD为例子,复制好命令,打开CMD,将命令输入到CMD窗口中回车,即可给CMD窗口实现科学上网。点击以管理员运行,选择复制命令。点击端口,出现终端代理。(1)使用清华源镜像。

2025-03-16 15:56:06 769

原创 SwinIR复现总结

测试集也需要放入图片分别放入HR文件夹下,以及LR-bicubic文件夹中X2文件夹中。(其中X2,X4等文件夹与图像分辨率有关例如,高清图像分辨率是低清的2倍则放入X2文件夹下)主要原因是测试集中的图像大小也需要一致,在HR文件中放正常图像,而在LR_bicubic文件中放×2或者×3图像。配置文件存放在options文件中,修改配置文件数据集路径、图像尺寸,其中scale与图像分辨大小有关。其中LR中数据有×2 ×3倍,本次数据集使用的为scale设置为2。*该命令使用后默认会使用清华源地址;

2025-02-24 11:03:09 1678 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除