- 博客(63)
- 收藏
- 关注
原创 2020CVPR速读:SiamBAN,用于视觉跟踪的Siamese框自适应网络
在本文中,作者利用全卷积网络的表达能力,提出了一种简单而有效的视觉跟踪框架,名为 SiamBAN,它不需要多尺度搜索模式和预定义的候选框。SiamBAN 直接在统一网络中对目标进行分类并回归边界框。因此,视觉跟踪问题变成了分类-回归问题。对六个视觉跟踪基准的广泛实验表明 SiamBAN 实现了最先进的性能并以 40 FPS 运行,证实了其有效性和效率。
2025-03-09 21:03:43
898
原创 2021CVPR速读:TransT,基于Transformer 的视觉跟踪
在这项工作中,作者提出了一种基于 Transformer-like 特征融合网络的新颖、简单且高性能的跟踪框架。所提出的网络仅使用注意机制进行特征融合,其中包括基于自注意的自我上下文增强模块和基于交叉注意的跨特征增强模块。注意力机制建立长距离特征关联,使跟踪器自适应地关注有用信息并提取丰富的语义信息。所提出的融合网络可以代替相关性来合成模板和搜索区域特征,从而促进目标定位和边界框回归。许多基准测试的大量实验结果表明,所提出的跟踪器在以实时速度运行时,其性能明显优于最先进的算法。
2025-03-09 21:01:26
865
原创 2022IJCAI速读:SparseTT,使用稀疏Transformers进行视觉跟踪
在这项工作中,作者通过一种新颖的稀疏 Transformer 跟踪器来增强基于 Transformer 的视觉跟踪。Transformer 中的稀疏自注意力机制缓解了普通自注意力机制因集中于全局背景而忽略最相关信息的问题,从而突出了搜索区域中的潜在目标。此外,引入双头预测器来提高分类和回归的准确性。实验表明,作者的方法在以实时速度运行时,可以在多个数据集上显著优于最先进的方法,这证明了我们方法的优越性和适用性。此外,作者方法的训练时间仅为 TransT 的 25%。总的来说,这是进一步研究的新的良好基线。
2025-03-09 20:54:18
1170
原创 2022IJCAI:SparseTT,使用稀疏Transformers进行视觉跟踪
在这项工作中,作者通过一种新颖的稀疏 Transformer 跟踪器来增强基于 Transformer 的视觉跟踪。Transformer 中的稀疏自注意力机制缓解了普通自注意力机制因集中于全局背景而忽略最相关信息的问题,从而突出了搜索区域中的潜在目标。此外,引入双头预测器来提高分类和回归的准确性。实验表明,本文方法在以实时速度运行时,可以在多个数据集上显著优于最先进的方法,这证明了该方法的优越性和适用性。此外,本文方法的训练时间仅为 TransT 的 25%。总的来说,这是进一步研究的新的良好基线。
2025-03-09 20:46:28
546
原创 2023TPAMI:TransT-M,基于Transformer的视觉跟踪改进
本文在TransT的基础上进行改进。首先,作者为TransT设计了一个分割分支,通过统一的框架完成边界框预测和实例分割。其次,作者用多模板方案和IoU预测设计进一步扩展了TransT。多模板方案记录目标的时间信息和外观变化。IoU预测头控制模板更新。
2025-03-09 20:41:20
62
原创 2021CVPR-TransT:基于Transformer 的视觉跟踪
在这项工作中,作者提出了一种基于 Transformer-like 特征融合网络的新颖、简单且高性能的跟踪框架。所提出的网络仅使用注意机制进行特征融合,其中包括基于自注意的自我上下文增强模块和基于交叉注意的跨特征增强模块。注意力机制建立长距离特征关联,使跟踪器自适应地关注有用信息并提取丰富的语义信息。所提出的融合网络可以代替相关性来合成模板和搜索区域特征,从而促进目标定位和边界框回归。许多基准测试的大量实验结果表明,所提出的跟踪器在以实时速度运行时,其性能明显优于最先进的算法。
2025-03-09 20:32:37
299
原创 2020CVPR-SiamBAN:用于视觉跟踪的Siamese框自适应网络
在本文中,作者利用全卷积网络的表达能力,提出了一种简单而有效的视觉跟踪框架,名为 SiamBAN,它不需要多尺度搜索模式和预定义的候选框。SiamBAN 直接在统一网络中对目标进行分类并回归边界框。因此,视觉跟踪问题变成了分类-回归问题。对六个视觉跟踪基准的广泛实验表明 SiamBAN 实现了最先进的性能并以 40 FPS 运行,证实了其有效性和效率。
2025-03-09 20:26:09
89
原创 论文速读:目标检测跟踪——SiamCAR(2019CVPR)
在本文中,我们提出了一个称为 SiamCAR 的 Siamese 分类和回归框架,用于端到端训练用于视觉跟踪的深度 Siamese 网络。我们证明跟踪任务可以以逐像素的方式解决,并采用简洁的全卷积框架。所提出的框架结构非常简单,但在 GOT-10K 和许多其他具有挑战性的基准测试上实现了最先进的结果。它还在 LaSOT 等大型数据集上取得了最先进的结果,这证明了我们的 SiamCAR 的通用性。
2025-01-18 18:24:02
1061
原创 SiamCAR(2019CVPR):用于视觉跟踪的Siamese全卷积分类和回归网络
在本文中,我们提出了一个称为 SiamCAR 的 Siamese 分类和回归框架,用于端到端训练用于视觉跟踪的深度 Siamese 网络。我们证明跟踪任务可以以逐像素的方式解决,并采用简洁的全卷积框架。所提出的框架结构非常简单,但在 GOT-10K 和许多其他具有挑战性的基准测试上实现了最先进的结果。它还在 LaSOT 等大型数据集上取得了最先进的结果,这证明了我们的 SiamCAR 的通用性。
2025-01-18 18:16:43
325
原创 论文速读:RepVGG(2021CVPR)——谁说这VGG老了,这VGG可太好用了
我们提出了 RepVGG,一种由 3×3 卷积和 ReLU 组成的堆栈的简单架构,特别适合 GPU 和专用推理芯片。通过我们的结构重新参数化方法,它在 ImageNet 上达到了超过 80% 的 top-1 精度,并且与最先进的模型相比,显示出有利的速度与精度权衡。
2025-01-18 18:10:22
1270
原创 RepVGG(2021CVPR):谁说这VGG老了,这VGG可太好用了
我们提出了 RepVGG,一种由 3×3 卷积和 ReLU 组成的堆栈的简单架构,特别适合 GPU 和专用推理芯片。通过我们的结构重新参数化方法,它在 ImageNet 上达到了超过 80% 的 top-1 精度,并且与最先进的模型相比,显示出有利的速度与精度权衡。
2025-01-18 18:06:15
61
原创 详解数据增强中的平移shft操作
是指在数据增强(data augmentation)过程中,通过对输入图像或目标进行位置偏移(平移),让目标在图像中呈现出不同的位置。Shift 平移的目的是增加训练数据的多样性,从而提高模型对目标在不同位置上的泛化能力。假设我们有一张 255×255像素的图像,目标位于中心位置。
2025-01-11 11:12:25
1185
原创 论文速读:SiamRPN++,利用深度网络实现Siamese视觉跟踪的进化
在本文中,我们提出了一个统一的框架,称为 SiamRPN++,用于端到端训练用于视觉跟踪的深度 Siamese 网络。 我们展示了如何在Siamese跟踪器上训练深度网络的理论和经验证据 我们的网络由多层聚合模块和深度相关层组成,多层聚合模块组装连接层次结构以聚合不同级别的表示,深度相关层使我们的网络能够减少计算成本和冗余参数,同时还能实现更好的收敛。
2025-01-11 10:52:41
1506
原创 SiamRPN++(2019CVPR):利用深度网络实现Siamese视觉跟踪的进化
本文中,我们提出了一个统一的框架,称为 SiamRPN++,用于端到端训练用于视觉跟踪的深度 Siamese 网络。 我们展示了如何在Siamese跟踪器上训练深度网络的理论和经验证据 我们的网络由多层聚合模块和深度相关层组成,多层聚合模块组装连接层次结构以聚合不同级别的表示,深度相关层使我们的网络能够减少计算成本和冗余参数,同时还能实现更好的收敛。
2025-01-11 10:46:23
116
原创 什么是卷积网络中的平移不变性?平移shft在数据增强中的意义
Shift 平移是指在数据增强(data augmentation)过程中,通过对输入图像或目标进行位置偏移(平移),让目标在图像中呈现出不同的位置。Shift 平移的目的是增加训练数据的多样性,从而提高模型对目标在不同位置上的泛化能力。1.1、平移的定义平移是将目标或图像内容在水平或垂直方向上移动。平移范围(shift range):定义平移的最大像素数,例如 ±16 像素表示目标可以随机移动 -16 到 +16 像素。1.2、操作步骤以图像为例:输入。
2025-01-11 10:39:10
1257
原创 目标检测跟踪中的Siamese孪生网络与普通卷积网络(VGG、ResNet)有什么区别?
Siamese网络又叫孪生网络,是一种特殊的神经网络架构,由一对(或多对)共享参数的子网络组成,用于学习输入样本之间的相似性或关系。最早在 1994 年由 Bromley 等人提出,最初被用于签名验证任务。目前广泛应用于目标检测跟踪领域中,基本已经作为目标跟踪的backbone了。例如,人脸识别场景中,如果你需要在一个大规模数据库中快速找到与给定人脸最相似的人,Siamese 网络会更高效和灵活。例如人脸验证(是否是同一个人)、签名验证。学习样本之间的相似性度量。如图像检索、推荐系统。
2025-01-11 10:20:03
1327
2
原创 计算机视觉高频面试题——求两个检测框的IOU
输入:a_box = [45,45,155,155],b_box = [50,50,150,150]给定两个检测框的左上角和左下角坐标,求两个检测框之间的交并比IOU。然后求两个检测框的IOU。首先求两个检测框的交集。
2024-12-28 15:52:53
139
原创 目标检测中的正负样本是什么,是如何起作用的?
Anchor-based中,如果一个候选框(Anchor)与目标框的重叠程度(IoU,交并比)大于一定阈值,可以被认为是正样本。而如果该检测框被认为是负样本,也就是模型认为该检测框没有框中感兴趣的目标,仅仅是包含了一些背景,那么该框仅仅会进行置信度的预测。对于一个检测框,如果被认为是正样本(有目标),则yi=1,那么等式右边的第二项就为0了,此时变成了。对于一个检测框,如果被认为是负样本(纯背景),则yi=0,那么等式右边的第一项就为0了,此时变成了。,预测置信度越接近大,则Lobj也越大。
2024-12-28 15:33:55
1014
原创 论文速读,YOLOX:anchor free的单阶段目标检测模型
在本报告中,旷视团队介绍了对YOLO系列的一些经验丰富的改进,形成了一种新的高性能检测器——YOLOX。我们将 YOLO 检测器切换为无锚模式,并采用其他先进的检测技术,即解耦头和先进的标签分配策略 SimOTA,以在大规模模型范围内实现最先进的结果。此外,旷视团队使用单个 YOLOX-L 模型赢得了流感知挑战(CVPR 2021 自动驾驶研讨会)第一名。
2024-12-20 11:58:40
798
原创 本地电脑使用命令行上传文件至远程服务器
scp C:/Users/"你的用户名"/Desktop/environment.yml ws:~/environment.yml。其中,C:/Users/“你的用户名”/Desktop/environment.yml是本地文件的路径,~/environment.yml是远程服务器的home路径(不一定非要home路径,自己决定),中间的ws:代表要上传的目的服务器(我这里给服务器取了别名,一般使用服务器ip地址)。
2024-12-19 19:16:37
673
原创 本地电脑生成SSH公钥私钥对,用于SSH远程连接服务器
生成方式:打开Windows的cmd,输入Windows命令行命令ssh-keygen,然后一直回车回车回车。C:\Users\“你的用户名”\.ssh\id_rsa.pub ==> 这个是公钥,用于配置到服务器。将公钥文件id_rsa.pub配置到服务器中,以便你能够在本地电脑通过ssh来访问该Linux服务器。4、也可以直接使用cmd输入SSH登录命令连接远程服务器,连接成功后输入exit就能退出连接。C:\Users\“你的用户名”\.ssh\id_rsa ==> 这个是私钥。
2024-12-19 19:11:16
1971
原创 YOLOX:anchor free的单阶段目标检测
在本报告中,旷视团队介绍了对YOLO系列的一些经验丰富的改进,形成了一种新的高性能检测器——YOLOX。我们将 YOLO 检测器切换为无锚模式,并采用其他先进的检测技术,即解耦头和先进的标签分配策略 SimOTA,以在大规模模型范围内实现最先进的结果。此外,旷视团队使用单个 YOLOX-L 模型赢得了流感知挑战(CVPR 2021 自动驾驶研讨会)第一名。
2024-12-19 17:17:32
110
原创 2021TCSVT,VDM-DA:面向无源数据域自适应的虚拟域建模
本文提出了一种称为虚拟域建模的域适应(VDMDA)的新方法,用于无源数据的无监督域适应(SFUDA)。为了学习域不变表示以减少不可访问的源域和目标域之间的分布差距,我们提出使用高斯混合来建模一个中间虚拟域,该域具有与高级特征空间中未观察到的源数据相似的数据分布模型(GMM),我们的虚拟域构建过程很简单,无需引入任何额外的可学习参数。我们通过使用新提出的不确定性感知对齐策略进一步将目标域与虚拟域对齐,以提高目标域中的类内紧凑性。针对不同跨域对象识别任务对 2D 图像和 3D 点云进行的大量实验证
2024-11-16 18:42:28
1117
原创 CVPR2021:领域迁移领域的适应性知识可视化
本文研究了UDA中自适应知识可视化的科学问题。具体而言,我们提出了一种无源图像翻译(SFIT)方法,该方法在源和目标模型的指导下,从原始目标图像生成源样式图像。源模型上的翻译图像与目标模型上的目标图像获得了相似的结果,表明成功地描述了适应的知识。这些图像也表现出源风格,风格迁移的程度遵循了UDA方法的性能,这进一步验证了更强的UDA方法可以更好地解决域之间的分布差异。我们表明,生成的图像可以应用于微调目标模型,并可能有助于其他任务,如增量学习。
2024-11-15 15:49:03
1053
原创 论文速读:动态再训练-更新用于无源目标检测的Mean Teacher(ECCV2024)
本文重点研究了在源域不可用的情况下,域自适应目标检测所面临的挑战。本文探讨了自训练均值教师框架恶化的原因,并提出了相应的改进措施。具体来说,我们引入了动态再训练更新机制来促进学生和教师模型的共同进化。在各种SFOD基准测试中,我们的方法显著提高了自训练范式的稳定性和适应性,实现了甚至可与先进的UDA方法相媲美的最先进性能。
2024-11-06 22:49:08
886
原创 ECCV2024新鲜出炉!动态再训练-更新用于无源目标检测的Mean Teacher
本文重点研究了在源域不可用的情况下,域自适应目标检测所面临的挑战。本文探讨了自训练均值教师框架恶化的原因,并提出了相应的改进措施。具体来说,我们引入了动态再训练更新机制来促进学生和教师模型的共同进化。在各种SFOD基准测试中,我们的方法显著提高了自训练范式的稳定性和适应性,实现了甚至可与先进的UDA方法相媲美的最先进性能。
2024-11-06 22:48:09
613
原创 ECCV2024新鲜出炉!简化无源域适应的目标检测-有效的自我训练策略和性能洞察
在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。
2024-11-05 11:40:50
719
原创 论文速读:简化目标检测的无源域适应-有效的自我训练策略和性能洞察(ECCV2024)
在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。此外,我们引入了一种简单的策略,包括在批量统计适应(AdaBN + fixed SF-FM)之后对一组固定的伪标签进行强增强训练,也产生了令人满意的性能,并显著减轻了自训练中的崩溃问题。
2024-11-04 22:03:51
1391
原创 CVPR2024:完全测试时域适应(Test-time Adaptation)的目标检测
本文提出了第一种解决目标检测的完全测试时间自适应问题的方法。与目前的领域自适应目标检测器相比,它既不假设目标分布是固定的且已知的,也不需要访问目标数据集,而这在许多应用中是需要的。在三个数据集上的实验结果表明,该方法可以有效地使训练好的检测器适应测试时的各种域移位,并带来可观的性能提升。
2024-11-01 12:10:00
1682
原创 介绍目标检测中mAP50和mAP50-95的区别
在目标检测任务中,mAP(mean Average Precision)是一个常用的性能评估指标,用于衡量模型在不同类别和不同IoU(Intersection over Union)阈值下的平均精度。其中mAP50和mAP50-95是mAP的两个特定版本。
2024-11-01 11:28:05
13566
原创 论文速读:完全测试时域适应(Test-time Adaptation)目标检测(CVPR2024)
本文提出了第一种解决目标检测的完全测试时间自适应问题的方法。与目前的领域自适应目标检测器相比,它既不假设目标分布是固定的且已知的,也不需要访问目标数据集,而这在许多应用中是需要的。在三个数据集上的实验结果表明,我们的方法可以有效地使训练好的检测器适应测试时的各种域移位,并带来可观的性能提升。通过消融研究,我们发现每个指标都是有效的,并且它们是互补的,阈值可能会影响性能,并且训练过多的迭代可能会降低测试时的完全适应性。
2024-10-31 19:01:46
1899
1
原创 域适应(Domain Adaptation, DA)、域泛化(Domain Generalization, DG)和测试时域适应(Test Time Adaptation, TTA)之间的区别与联系
域适应(Domain Adaptation, DA)、域泛化(Domain Generalization, DG)和测试时域适应(Test Time Adaptation, TTA)是迁移学习领域中处理分布差异的三个重要概念,它们既有联系也有区别
2024-10-31 10:35:25
1644
原创 YOLOv9模型重新参数化,将yolo.pt转为yolo-converted.pt
本文主要介绍了如何对YOLOv9模型进行重新参数化,可以将普通的yolo模型转为yolo-converted模型,在保持精度不变的情况下,加快推理速度、减小模型复杂度。
2024-10-30 20:40:54
1103
5
原创 计算机视觉常用数据集Foggy Cityscapes的介绍、下载、转为YOLO格式进行训练
大雾城市景观Foggy Cityscapes (F):Foggy Cityscapes是由 Cityscapes 生成的合成数据集,它旨在模拟和研究自动驾驶车辆在雾天条件下的性能,有三个级别的大雾天气(0.005,0.01,0.02),从轻微的雾到浓厚的雾,分别对应于600,300和150米的能见度范围。由于雾天条件下的能见度降低,图像中的许多目标会变得模糊不清,这对计算机视觉检测来说是一个挑战。Foggy Cityscapes 为研究人员提供了一个测试和改进算法的机会,以提高在恶劣条件下算法的鲁棒和准确性
2024-10-30 12:58:22
2831
13
原创 计算机视觉常用数据集Cityscapes的介绍、下载、转为YOLO格式进行训练
城市景观Cityscapes(C):Cityscapes 收集了50个不同城市良好天气条件下的城市街景,总共包含5000张真实城市场景图像;其中3475张带标注信息的图像用于训练验证(2,975张图像用于训练,500张用于验证),剩下1525张无标注信息图像用于测试。Cityscapes数据集是计算机视觉领域常用的数据集,它的高质量标注和丰富场景使其成为评估和训练算法的理想选择。
2024-10-29 16:27:28
7382
27
原创 巨详细解析!YOLO-G:用于跨域目标检测的改进YOLO(Plos One 2023)
为了缓解跨域目标检测问题,本文分析了主流算法模型的特点,在YOLOV5的基础上提出了一种简单高效的YOLO-G模型。通过引入特征对齐分支和对抗训练,提高了主干模型在提取目标特征方面的一致性,增强了模型的泛化性,实现了更好的跨域检测能力。我们还组织了9组跨域对比实验,本文提出的YOLO-G模型达到了超越一系列SOTA模型的精度,表明其在跨域目标检测任务中具有更好的应用前景。
2024-10-26 12:08:54
2931
2
原创 论文速读:YOLO-G,用于跨域目标检测的改进YOLO(Plos One 2023)
为了缓解跨域目标检测问题,本文分析了主流算法模型的特点,在YOLOV5的基础上提出了一种简单高效的YOLO-G模型。通过引入特征对齐分支和对抗训练,提高了主干模型在提取目标特征方面的一致性,增强了模型的泛化性,实现了更好的跨域检测能力。我们还组织了9组跨域对比实验,本文提出的YOLO-G模型达到了超越一系列SOTA模型的精度,表明其在跨域目标检测任务中具有更好的应用前景。
2024-10-25 22:47:35
1574
原创 论文速读:面向单阶段跨域检测的域自适应YOLO(ACML2021)
域转移是目标检测器在实际应用中推广的主要挑战。两级检测器的域自适应新兴技术有助于解决这个问题。然而,两级检测器由于其耗时较长,并不是工业应用的首选。本文提出了一种有效的单阶段跨域自适应DA-YOLO算法。与以往的方法相比,我们在单阶段检测器上建立了域自适应模型。此外,我们还成功地为单阶段检测器引入了实例级自适应。在多个跨域数据集上的充分实验表明,我们的方法优于先前基于Faster R-CNN的方法,并且提出的三个域自适应模块都是有效的。
2024-10-24 17:20:51
1194
原创 2021亚洲机器学习会议:面向单阶段跨域检测的域自适应YOLO(ACML2021)
域转移是目标检测器在实际应用中推广的主要挑战。两级检测器的域自适应新兴技术有助于解决这个问题。然而,两级检测器由于其耗时较长,并不是工业应用的首选。本文提出了一种有效的单阶段跨域自适应DA-YOLO算法。与以往的方法相比,我们在单阶段检测器上建立了域自适应模型。此外,我们还成功地为单阶段检测器引入了实例级自适应。在多个跨域数据集上的充分实验表明,我们的方法优于先前基于Faster R-CNN的方法,并且提出的三个域自适应模块都是有效的。
2024-10-24 17:17:02
1031
故障诊断六分类数据集,免费下载
2024-09-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人