- 博客(88)
- 收藏
- 关注

原创 Spring框架介绍及使用
Spring框架—控制反转(IOC)1 Spring框架概述1.1 什么是Spring1.2 Spring的优点1.3 Spring的体系结构2 入门案例:(IoC)2.1导入jar包2.2目标类2.3 配置文件2.4测试3 入门案例:DI3.1 目标类3.2 dao3.3 service3.4 配置文件3.5 测试4 依赖注入...
2018-03-17 10:49:54
391998
66
原创 DINO-X:一种用于开放世界目标检测与理解的统一视觉模型
在本文中,我们介绍了DINO-X,这是一种由IDEA Research团队开发的统一以对象为中心的视觉模型,迄今为止在开放世界目标检测性能方面表现最佳。DINO-X采用了与Grounding DINO 1.5 [47]相同的基于Transformer的编码器-解码器架构,以追求开放世界目标理解的对象级表示。为了简化长尾目标检测,DINO-X扩展了其输入选项,支持文本提示、视觉提示和定制提示。
2025-03-01 09:54:02
915
1
原创 Softmatch: ADDRESSING THE QUANTITY-QUALITY TRADE-OFF IN SEMI-SUPERVISED LEARNING
半监督学习(SSL)的关键挑战在于如何有效利用有限的标记数据和大量的未标记数据,以提升模型的泛化性能。在本文中,我们首先通过统一的样本加权公式重新审视流行的伪标签方法,并展示了带有阈值的伪标签方法中固有的数量-质量权衡问题,这种问题可能会阻碍学习。为此,我们提出了SoftMatch来解决这一权衡问题,在训练过程中保持伪标签的高数量和高质量,从而有效地利用未标记数据。我们推导出一个截断高斯函数,根据样本的置信度对其进行加权,可以将其视为置信度阈值的软化版本。
2024-11-01 10:32:54
1107
原创 Unsupervised Domain Adaptation by Backpropagation
顶尖的深度架构通常在大量标注数据上进行训练。对于某些任务,如果缺少标注数据,领域自适应通常是一个有吸引力的选项,尤其是在有相似但来自不同领域(如合成图像)的标注数据可用的情况下。在此,我们提出了一种新的深度架构领域自适应方法,该方法可以在源领域的大量标注数据和目标领域的大量无标注数据上进行训练(不需要目标领域的标注数据)。随着训练的进行,该方法有助于产生“深层”特征,这些特征(i)对源领域的主要学习任务具有判别力,且(ii)对领域之间的差异具有不变性。
2024-10-28 14:35:49
958
原创 【FREEMATCH: SELF-ADAPTIVE THRESHOLDING FOR SEMI-SUPERVISED LEARNING】
半监督学习(SSL)由于伪标签和一致性正则化等各种方法带来的出色表现,取得了巨大成功。然而,我们认为现有方法可能未能更有效地利用未标记数据,因为它们要么使用预定义的/固定的阈值,要么采用临时的阈值调整方案,导致性能下降和收敛速度缓慢。我们首先分析了一个激励示例,以直观理解理想阈值与模型学习状态之间的关系。基于此分析,我们提出了FreeMatch,通过根据模型的学习状态自适应地调整置信度阈值。我们进一步引入了自适应类别公平正则化惩罚,以在早期训练阶段鼓励模型进行多样化的预测。
2024-10-15 09:51:32
1135
原创 FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling
最近提出的FixMatch在大多数半监督学习(SSL)基准上取得了最先进的结果。然而,像其他现代SSL算法一样,FixMatch为所有类别使用预定义的恒定阈值来选择有助于训练的未标记数据,忽略了不同类别的学习状态和难度差异。为了解决这个问题,我们提出了课程伪标签(Curriculum Pseudo Labeling, CPL),这是一种基于课程学习的方法,根据模型的学习状态利用未标记数据。CPL的核心是动态调整不同类别的阈值,使得有价值的未标记数据及其伪标签得以通过。
2024-10-12 21:32:30
1224
原创 【UniMatch】
在这项工作中,我们重新审视了由FixMatch在半监督分类中普及的弱到强一致性框架,其中弱扰动图像的预测作为其强扰动版本的监督。有趣的是,我们观察到这样一个简单的流程在转移到我们的分割场景时,已经能够达到与最近的先进工作相竞争的结果。然而,它的成功在很大程度上依赖于强数据增强的手动设计,这可能会限制并不足以探索更广泛的扰动空间。基于此,我们提出了一种辅助特征扰动流作为补充,从而扩展扰动空间。另一方面,为了充分探测原始图像级增强,我们提出了一种双流扰动技术,使得两个强视图可以同时受到共同弱视图的引导。
2024-10-07 20:49:11
1006
原创 Unsupervised Domain Adaptation by Backpropagation
顶尖的深度架构通常是在大量标注数据上进行训练的。当某项任务缺乏标注数据时,领域自适应往往成为一个有吸引力的选择,前提是存在相似性质但来自不同领域(例如,合成图像)的标注数据。在这里,我们提出了一种新的领域自适应方法,适用于深度架构,可以在源领域的海量标注数据和目标领域的大量未标注数据上进行训练(不需要目标领域的标注数据)。随着训练的进行,该方法促进了“深层”特征的产生,这些特征具备以下两点:(i)在源领域的主要学习任务中具有良好的区分性,(ii)在领域间的迁移中具有不变性。
2024-09-20 19:38:51
806
原创 Structure-Aware Feature Fusion for Unsupervised Domain Adaptation
无监督域适应(Unsupervised Domain Adaptation,UDA)旨在从有标注的源域中学习并迁移通用特征到无任何标注的目标域。现有的方法仅对高层次的表示进行对齐,却没有利用复杂的多类别结构和局部空间结构。这导致了两个问题:1)当不同类别的特征错位时,模型容易出现负迁移;2)缺失局部空间结构会对细粒度特征对齐造成重大障碍。在本文中,我们将分类器预测和局部特征图中包含的有价值信息整合到全局特征表示中,然后进行单一的极小极大博弈,使其具备域不变性。
2024-09-01 10:25:34
729
1
转载 互信息最大化
最大化互信息就像是你找到一种方法,尽可能多地通过X的信息来预测Y的信息,这样你的调查会更有效。在机器学习中,最大化互信息方法的核心思想是优化模型参数,使得输入和输出之间的互信息最大化,从而增强模型的性能。假设我们有一个电影推荐系统,我们希望通过用户的观影历史(输入X)来推荐他们可能喜欢的电影(输出Y)。:随机变量X表示一个均衡的六面骰子掷出的点数,Y表示X的奇偶性(Y=0如果X是偶数,Y=1如果X是奇数)。互信息计算:我们计算用户观影历史与推荐电影之间的互信息,衡量观影历史对推荐电影的影响程度。
2024-08-28 16:58:25
322
原创 FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
半监督学习(SSL)提供了一种有效利用未标注数据来提升模型性能的方法。近年来,该领域取得了快速进展,但也伴随着更复杂方法的需求。在本文中,我们提出了FixMatch,这是一种显著简化现有SSL方法的算法。FixMatch首先利用模型对弱增强未标注图像的预测生成伪标签。对于给定的图像,只有当模型产生高置信度预测时,才保留该伪标签。然后,模型在输入同一图像的强增强版本时,进行训练以预测该伪标签。
2024-08-27 15:46:59
982
原创 Random Boxes Are Open-world Object Detectors
我们展示了使用随机区域提案训练的分类器在开放世界物体检测(OWOD)中达到了最先进的性能:它们不仅可以保持已知物体(带训练标签)的准确性,还能显著提高未知物体(无训练标签)的召回率。具体来说,我们提出了RandBox,这是一种基于Fast R-CNN的架构,在每次训练迭代时使用随机提案进行训练,超越了现有的基于Faster R-CNN和变换器的OWOD方法。其有效性源于随机性引入的以下两个好处。首先,由于随机化独立于有限已知物体的分布,随机提案成为防止训练被已知物体干扰的工具变量。
2024-07-17 21:06:59
1108
原创 【Feature Pyramid Networks for Object Detection】
特征金字塔是识别系统中用于检测不同尺度对象的基本组件。但是,最近的深度学习对象检测器已经避免了金字塔表示,部分原因是它们在计算和内存方面都很密集。在这篇论文中,我们利用深度卷积网络的固有多尺度、金字塔层次结构来构建特征金字塔,额外的成本几乎可以忽略不计。我们开发了一种自顶向下的架构,通过横向连接来构建所有尺度的高级语义特征图。这种架构被称为特征金字塔网络(FPN),在多个应用中作为通用特征提取器显示出显著的改进。
2024-06-25 10:57:15
696
原创 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
最先进的目标检测网络依赖于区域提议算法来假设对象的位置。像SPPnet [1] 和 Fast R-CNN [2] 这样的进步已经减少了这些检测网络的运行时间,使得区域提议计算成为瓶颈。在这项工作中,我们引入了一个区域提议网络(RPN),它与检测网络共享全图像卷积特征,从而实现了几乎无成本的区域提议。RPN是一个完全卷积的网络,它同时预测每个位置的对象边界和对象性分数。RPN被端到端地训练以生成高质量的区域提议,这些提议被Fast R-CNN用于检测。
2024-06-25 10:56:25
1074
原创 KAN: Kolmogorov–Arnold Networks
受柯尔莫戈罗夫-阿诺德表示定理的启发,我们提出了柯尔莫戈罗夫-阿诺德网络(KANs),作为多层感知器(MLPs)的有前途的替代方案。与 MLPs 的节点(“神经元”)上具有固定的激活函数不同,KANs 的边(“权重”)上具有可学习的激活函数。KANs 完全没有线性权重——每个权重参数都被一个参数化为样条的单变量函数所取代。我们展示了这个看似简单的改变使得 KANs 在准确性和可解释性方面优于 MLPs。
2024-05-28 13:34:57
1634
原创 【Deep Unsupervised Learning using Nonequilibrium Thermodynamics】扩散模型开山之作
机器学习中的一个核心问题涉及使用高度灵活的概率分布家族来建模复杂的数据集,其中学习、采样、推理和评估仍然是解析或计算上可行的。在这里,我们开发了一种同时实现灵活性和可处理性的方法。这个基本的想法,受到非平衡统计物理的启发,是通过一个迭代的前向扩散过程系统地并缓慢地破坏数据分布中的结构。然后,我们学习一个反向扩散过程,恢复数据中的结构,从而产生一个高度灵活且可处理的数据的生成模型。这种方法使我们能够快速地学习、从深度生成模型中采样和评估概率,这些模型有数千层或时间步,以及在学习的模型下计算条件和后验概率。
2024-05-20 16:15:49
1150
原创 Unsupervised Out-of-Distribution Detection with Diffusion Inpainting
无监督的异常分布检测(OOD)旨在通过仅从未标记的域内数据中学习来识别域外数据。我们提出了一种用于此任务的新方法——提升、映射、检测(LMD),该方法利用了扩散模型的最新进展。扩散模型是一类生成模型。其核心在于学习一种迭代的去噪过程,逐渐将噪声图像映射到其训练流形上。LMD 利用这一直觉来进行 OOD 检测。具体而言,LMD 通过扰乱图像将其从原始流形上提升出来,然后使用扩散模型将其映射到域内流形上。对于域外图像,映射后的图像会与其原始流形有较大的距离,LMD 会相应地将其识别为 OOD。
2024-05-16 14:22:24
822
原创 Out-of-Distribution Detection with Semantic Mismatch under Masking
本文提出了一种名为MoodCat的新型分布之外(OOD)检测框架,用于图像分类器。MoodCat会对输入图像的随机部分进行遮盖,并使用生成模型根据分类结果将遮盖的图像合成为新的图像。然后,它计算原始图像和合成图像之间的语义差异以进行OOD检测。与现有的解决方案相比,MoodCat通过提出的遮盖和条件合成策略自然地学习了分布内数据的语义信息,这对于识别OOD至关重要。实验结果表明,MoodCat在OOD检测解决方案中的表现优于最先进的技术,优势明显。
2024-05-08 17:15:08
1219
原创 Denoising diffusion models for out-of-distribution detection
对于机器学习系统的安全部署,检测分布之外的数据(Out-of-distribution detection)至关重要。目前,无监督的分布之外的数据检测主要由生成模型的方法主导,这些方法利用生成模型的似然估计或其他测量值。基于重构的方法提供了一种替代方法,其中使用重构误差的度量来确定样本是否为分布之外的数据。然而,基于重构的方法不太受欢迎,因为它们需要仔细调整模型的信息瓶颈(如潜在维度的大小)以产生良好的结果。
2024-05-08 15:28:23
491
原创 Rethinking Reconstruction Autoencoder-Based Out-of-Distribution Detection
在某些场景中,分类器需要检测远离其训练数据的分布外样本。具有理想的特性,基于重构自动编码器的方法通过使用输入重构误差作为新颖性与正常性的度量来解决这个问题。我们将这种方法的本质形式化为四元域转换,其内在偏见只查询条件数据不确定性的代理。因此,改进的方向被形式化为最大限度地压缩自动编码器的潜在空间,同时确保其作为描述的域转换器的重构能力。
2024-04-29 16:44:58
534
原创 Out-of-Distribution Detection with Reconstruction Error and Typicality-based Penalty
对于实现现实应用的安全可靠运行,进行分布之外(OOD)的检测任务至关重要。在高维度下基于似然性的检测失败被展示出来后,基于典型集的方法引起了人们的关注;然而,它们仍未达到令人满意的性能。我们首先提出了典型性方法的失败案例,然后提出了一种新的基于重构误差的方法,该方法采用了归一化流(NF)。我们进一步引入了基于典型性的惩罚,并将其纳入NF的重构误差中,我们提出了一种新的OOD检测方法,即惩罚重构误差(PRE)。由于PRE检测了偏离输入分布流形的测试输入,因此它有效地检测了对抗性示例以及OOD示例。
2024-04-26 14:25:03
715
原创 Detecting the open-world objects with the help of the “Brain”
Open World Object Detection (OWOD)是一项新颖的计算机视觉任务,具有相当大的挑战,它弥合了经典目标检测(OD)基准和真实世界目标检测之间的差距。除了检测和分类已知的对象之外,OWOD算法还应该能够检测未知的对象,并逐步学习它们。人类在环境中识别未知对象的自然本能主要依赖于他们大脑的知识库。模型仅通过学习几个小数据集的注释就能做到这一点是很困难的。大型预训练的基于语言和图像的模型——VL(即GLIP)对于开放世界具有丰富的知识,但受限于文本提示。
2024-03-27 13:40:01
1013
原创 Semi-supervised Open-World Object Detection
传统的开放世界对象检测(OWOD)问题设置首先区分已知和未知类别,然后在后续任务中引入标签时逐步学习未知对象。然而,当前的OWOD公式在增量学习阶段严重依赖外部人类预言者进行知识输入。这种对运行时的依赖使得这种公式在现实世界的部署中显得不太现实。为了解决这个问题,我们引入了一个更现实的公式,名为半监督开放世界检测(SS-OWOD),通过将OWOD的增量学习阶段投射为半监督方式,减少了注释成本。我们证明了最先进的OWOD检测器在提出的SS-OWOD设置中的性能显著下降。
2024-03-21 17:15:34
990
原创 USD: Unknown Sensitive Detector Empowered by Decoupled Objectness and Segment Anything Model
开放世界目标检测(OWOD)是一项新颖而具有挑战性的计算机视觉任务,可以实现对未知目标的检测。现有方法通常通过额外的目标性分支来估计目标的可能性,但忽略了在语义空间和训练目标上互相对立的目标性和分类边界的冲突。为了解决这个问题,我们提出了一种简单而有效的学习策略,即解耦目标性学习(DOL),它将这两个边界的学习分为合适的解码器层。此外,全面检测未知对象需要大量的注释,但标记所有未知对象既困难又昂贵。因此,我们建议利用最近的大视觉模型(LVM),特别是分割任意模型(SAM),来增强对未知对象的检测。
2024-03-20 16:40:29
713
原创 End-to-End Object Detection with Transformers(DETR论文解析)
我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了许多手工设计的组件,如非极大值抑制程序或锚点生成,这些组件通常明确地编码了我们对任务的先验知识。新框架 DETR(DEtection TRansformer)的主要组成部分是一种基于集合的全局损失,通过二分图匹配强制进行唯一预测,以及一种 Transformer 编码器-解码器架构。在给定一组学到的固定小目标查询的情况下,DETR通过推理对象之间的关系和全局图像上下文直接并行输出最终的预测。
2023-12-23 11:26:56
1023
原创 PROB: Probabilistic Objectness for Open World Object Detection(论文解析)
Open World Object Detection (OWOD)是一项新的具有挑战性的计算机视觉任务,弥合了传统目标检测(OD)基准和实际世界目标检测之间的差距。除了检测和分类已知/标记的对象外,OWOD算法还应该检测新颖/未知的对象——这些对象可以进行分类并进行增量学习。在标准OD中,与已标记对象不重叠的对象提议会被自动分类为背景。因此,简单地将OD方法应用于OWOD会失败,因为未知对象将被预测为背景。检测未知对象的挑战源于在区分未知对象和背景对象提议方面缺乏监督。
2023-11-17 14:44:58
616
原创 CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection
面向开放世界目标检测(OWOD)作为一个更一般且具有挑战性的目标,要求从已知对象的数据中训练的模型能够检测已知和未知的对象,并逐渐学会识别这些未知对象。现有的采用标准检测框架和固定伪标注机制(PLM)的工作存在以下问题:(i)检测未知对象实质上减少了模型检测已知对象的能力。(ii)PLM未充分利用输入的先验知识。(iii)PLM的固定选择方式不能保证模型在正确方向上进行训练。我们观察到,人类在下意识中更倾向于专注于所有前景对象,然后逐一详细识别每个对象,而不是同时定位和识别单个对象,以减轻混淆。
2023-11-10 14:10:18
481
原创 READ: Aggregating Reconstruction Error into Out-of-Distribution Detection(论文解析)
检测非分布(OOD)样本对于在真实世界中安全应用分类器至关重要。然而,已知深度神经网络对于异常数据存在过度自信的问题。现有方法直接通过挖掘分类器在分布内(ID)和OOD之间的不一致性来设计得分函数。在本文中,我们利用重构误差进一步补充了这种不一致性,基于以下假设:在ID数据上训练的自编码器无法像在ID数据上一样重建OOD数据。我们提出了一种新颖的方法,READ(重建误差聚合检测器),来统一分类器和自编码器的不一致性。具体而言,原始像素的重建误差被转化为分类器的潜在空间。
2023-11-09 14:29:17
178
原创 Distilling the Knowledge in a Neural Network【论文解析】
提高几乎任何机器学习算法性能的一种非常简单的方法是在相同的数据上训练许多不同的模型,然后对它们的预测进行平均处理[3]。不幸的是,使用整个模型集合进行预测既繁琐又可能过于计算密集,特别是如果单独的模型是庞大的神经网络,这将使其无法部署到大量用户那里。Caruana及其合作者[1]已经表明,可以将集合中的知识压缩成一个单一模型,这个单一模型更容易部署,而我们使用不同的压缩技术进一步发展了这种方法。
2023-11-02 18:54:04
207
原创 Incremental Object Detection via Meta-Learning【论文解析】
摘要:在真实世界的情境中,目标检测器可能会不断遇到来自新类别的物体实例。当现有的目标检测器应用于这种情景时,它们对旧类别的性能会显著下降。已经有一些努力来解决这个限制,它们都应用了知识蒸馏的变体来避免灾难性遗忘。然而,我们注意到,尽管蒸馏有助于保留以前的学习,但它阻碍了对新任务的快速适应性,这是增量学习的关键要求。因此,我们提出了一种元学习方法,该方法学习重塑模型梯度,以便跨增量任务的信息得到最佳共享。这通过元学习梯度预调节来实现无缝信息传递,从而最小化遗忘并最大化知识传递。
2023-11-01 15:28:59
1040
原创 Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection(论文解析)
这篇论文介绍了一种名为"Grounding DINO"的开放域目标检测器,通过将基于Transformer的检测器DINO与Grounding预训练技术相结合,可以检测具有人类输入(如类别名称或指代表达式)的任意对象。这篇论文的关键解决方案是引入语言到封闭集检测器中,以进行开放集概念的泛化。为了有效融合语言和视觉模态,论文将封闭集检测器概念上划分为三个阶段,并提出了一种紧密融合的解决方案,其中包括特征增强器、语言引导的查询选择和跨模态解码器用于跨模态融合。
2023-10-31 16:19:45
579
原创 Detecting Everything in the Open World: Towards Universal Object Detection(论文解析)
在本文中,我们正式探讨了通用目标检测,旨在检测每个场景并预测每个类别。依赖于人工注释、有限的视觉信息以及开放世界中的新颖类别严重限制了传统检测器的通用性。我们提出了UniDetector,这是一个通用目标检测器,具有在开放世界中识别大量类别的能力。1) 通过对齐图像和文本空间,它利用多个来源和异构标签空间的图像进行训练,确保了通用表示的充分信息。2) 它很容易推广到开放世界,同时保持了已知和未知类别之间的平衡,这得益于视觉和语言模态的丰富信息。
2023-10-27 11:07:44
297
原创 Learning Open-World Object Proposals without Learning to Classify(论文解析)
物体提议已经成为许多视觉流程的重要预处理步骤,包括目标检测、弱监督检测、目标发现、跟踪等。与无需学习的方法相比,基于学习的提议最近变得越来越受欢迎,这主要是因为对目标检测的兴趣日益增长。常见的范式是从带有一组对象区域及其对应类别的标记数据中学习对象提议。然而,这种方法通常难以处理在训练集中不存在的开放世界中的新对象。在本文中,我们发现问题在于现有提议方法中的二元分类器往往对训练类别过拟合。
2023-10-23 17:07:10
734
原创 Segment Anything(论文解析)
我们介绍了“Segment Anything” (SA) 项目:这是一个新的任务、模型和数据集对于图像分割。使用我们高效的模型进行数据收集,我们构建了迄今为止最大的分割数据集(远远超过其他数据集),其中包含了超过10亿个掩膜,覆盖了1100万张经过许可和尊重隐私的图像。该模型被设计和训练为可提示的,因此可以实现零次学习,适用于新的图像分布和任务。我们在多个任务上评估了它的性能,并发现它的零次学习性能令人印象深刻,通常可以与先前的完全监督结果相竞争甚至更优越。
2023-10-17 10:24:06
392
原创 FreeSOLO: Learning to Segment Objects without Annotations*(论文解析)
实例分割是一项基本的计算机视觉任务,旨在识别并分割图像中的每个对象。然而,要学习实例分割通常需要昂贵的注释,例如边界框和分割掩模。在这项工作中,我们提出了一种完全无监督的学习方法,可以学习不受类别限制的实例分割,而无需任何注释。我们介绍了FreeSOLO,这是建立在简单实例分割方法SOLO之上的自监督实例分割框架。我们的方法还提出了一种新颖的面向定位的预训练框架,在其中可以以无监督的方式从复杂场景中发现对象。
2023-10-13 15:31:56
451
原创 PROB: Probabilistic Objectness for Open World Object Detection(论文解析)
开放世界目标检测(OWOD)是一个新的、具有挑战性的计算机视觉任务,它弥合了传统的目标检测(OD)基准和现实世界中的目标检测之间的差距。除了检测和分类已知/标记的对象外,OWOD算法还应该能够检测新颖/未知的对象,这些对象可以进行分类和增量学习。在标准的OD中,不与已标记对象重叠的对象提议会自动分类为背景。因此,简单地将OD方法应用于OWOD会失败,因为未知对象将被预测为背景。检测未知对象的挑战源于在区分未知对象和背景对象提议方面缺乏监督。
2023-09-16 10:55:32
736
原创 Annealing-based Label-Transfer Learning for Open World Object Detection(论文解析)
开放世界目标检测(Open World Object Detection,OWOD)因其在现实世界中的实用性而引起了广泛关注。以往的OWOD研究通常采用手动设计未知发现策略来从背景中选择未知提议,但由于缺乏适当的先验知识,存在不确定性。在本文中,我们提出目标检测可以被看作是一个目标级特征纠缠过程,其中未知特征通过卷积操作传播到已知提议,可以被提炼以增强未知目标的识别,而无需手动选择。因此,我们提出了一种简单而有效的基于退火的标签传递框架,充分探索已知提议以减轻不确定性。
2023-09-16 09:58:00
415
原创 DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION (论文解析)
DETR最近被提出,旨在消除目标检测中许多手工设计组件的需要,同时表现出良好的性能。然而,它在收敛速度较慢和特征空间分辨率有限方面存在问题,这是由于Transformer注意模块在处理图像特征图时的局限性。为了减轻这些问题,我们提出了Deformable DETR,其注意模块仅关注围绕参考点的一小组关键采样点。Deformable DETR可以在比DETR少10倍的训练时期内实现更好的性能(特别是在小目标上)。对COCO基准的大量实验证明了我们方法的有效性。
2023-09-09 20:03:33
933
2
原创 End-to-End Object Detection with Transformers(论文解析)
我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了许多手工设计的组件的需求,如显式编码我们关于任务的先验知识的非极大值抑制过程或锚点生成。新框架的主要要素,称为DEtection TRansformer或DETR,包括一个基于集合的全局损失,通过二分图匹配强制执行唯一的预测,以及一个Transformer编码器-解码器架构。给定一组固定的学习目标查询,DETR通过推理对象之间的关系和全局图像上下文,直接并行输出最终的预测。
2023-09-08 20:03:19
989
原创 Towards Open World Object Detection【论文解析】
人类在环境中有一种自然本能,即识别未知的物体实例。对于这些未知实例的内在好奇心有助于在相应的知识最终可得到时学习它们。无需明确监督就识别尚未引入为“未知”的物体。当相应标签逐步接收时,逐步学习这些已识别的未知类别,而不会遗忘先前学习的类别。我们对问题进行了规定,引入了强大的评估协议,并提供了一种新颖的解决方案,称为ORE:开放世界目标检测器,它基于对比聚类和基于能量的未知识别。我们的实验评估和消融研究分析了ORE在实现开放世界目标方面的效力。
2023-08-09 11:11:58
1581
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人