自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 SeCo:Decoupling Co-occurence via Decomposition and Representation for WSSS

基于图像级标签的弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)旨在无需密集标注的情况下完成分割任务。然而,由于共现对象的频繁耦合以及图像级标签监督信息的有限性,具有挑战性的共现问题广泛存在,并导致WSSS中对象的错误激活。为了解决这一问题,我们设计了一种“分解与攻克”(Separate and Conquer)方案——SeCo,从图像空间和特征空间两个维度着手解决该问题。

2024-11-17 17:37:52 954

原创 APC论文总结

弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)仅使用图像级标签,因其成本效益高而备受关注。典型框架是使用图像级标签作为训练数据生成像素级伪标签,并对其进行精炼。最近,基于视觉Transformer(Vision Transformer, ViT)的方法在生成可靠的伪标签方面展现出优越的能力,尤其是在识别完整的目标区域时,相较于卷积神经网络(CNN)方法表现更佳。

2024-10-06 23:22:41 1043

原创 Adaptive Selection based Referring Image Segmentation 论文总结

指向性图像分割(RIS)旨在根据特定描述分割出特定区域。现有的一阶段方法探索了多种融合策略,但仍面临两个显著问题。首先,大多数方法依赖于手动选择来自视觉编码器层的视觉特征,缺乏灵活性,无法有选择性地关注与语言相关的视觉特征。其次,直接将词级特征融合到粗对齐特征中,破坏了已经建立的视觉-语言对齐关系,导致性能不佳。本文提出了一种创新的RIS框架,旨在通过视觉和语言特征的自适应对齐来克服这些挑战,称为自适应选择与双重对齐(ASDA)。ASDA在两个方面有所创新。

2024-09-21 20:11:51 2200

原创 Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk Consistency 论文总结

参考图像分割旨在根据自然语言表达来定位图像中的目标。大多数以往的研究通过大规模的分割标签数据集来学习参考图像分割,但这些数据集的获取成本高昂。我们提出了一种弱监督学习方法,该方法仅使用易于获取的图像-文本对。我们首先训练一个视觉语言模型用于图像-文本匹配,并通过Grad-CAM提取视觉显著性图,以识别与每个词汇对应的图像区域。然而,我们发现Grad-CAM存在两个主要问题。首先,它未能考虑词汇之间的关键语义关系。我们通过建模词汇之间的内部一致性和外部一致性来解决这个问题。

2024-09-02 17:25:26 966

原创 Curriculum Point Prompting for Weakly-Supervised Referring Image Segmetation 论文总结

指代图像分割(Referring Image Segmentation, RIS)旨在通过相应的自然语言表达准确分割图像中的指代物,但依赖代价高昂的掩码注释。弱监督 RIS 通过图文对学习像素级语义,这对于细粒度掩码的分割具有挑战性。增强分割精度的一种自然方法是利用图像分割基础模型 SAM 来强化弱监督 RIS。然而,我们发现简单地集成 SAM 收益有限,甚至会因不可避免的噪声问题和对对象部分的过度关注而导致性能下降。

2024-08-29 22:50:36 1385

原创 A Brief Introduction to Weakly Supervised Learning 论文总结

监督学习技术通过从大量训练样本中学习来构建预测模型,每个训练样本都有一个标签指示其真实的输出。尽管当前的技术已经取得了很大成功,但值得注意的是,在许多任务中,由于数据标注过程成本高昂,难以获得强监督信息,如完全的真实标签。因此,期望机器学习技术能够处理弱监督。本文回顾了弱监督学习的一些研究进展,重点讨论了三种典型的弱监督类型:不完全监督(只有一部分训练数据被标注);不精确监督(训练数据只给出粗略标签);不准确监督(给定的标签不总是准确的真实标签)。

2024-08-27 22:27:18 1927

原创 Attention Is All You Need 论文总结

Transformer通过引入自注意力机制(Self-Attention Mechanism)和去除循环神经网络(RNN)及卷积神经网络(CNN),解决了传统序列模型在长距离依赖和并行计算上的局限性。

2024-08-26 21:11:27 1137

原创 EfficientDet 论文总结

正如摘要中所说,在计算机视觉领域模型的效率变得越来越重要。一个低效的网络无法很好的被应用到生活中的各个场景中,较大的模型尺寸和昂贵的计算成本阻碍了它们在机器人领域和自动驾驶汽车等许多显示应用中部署,鉴于这些资源限制,模型的效率对于目标检测变得越来越重要。在这篇论文中,作者通过优化FPN结构提出了一种更高效的BiFPN,并且考虑到了在图片尺寸缩放时可能会收到网络结构的限制,提出了联合缩放的方法,这些改进使得EfficientDet-D7在COCO测试集上实现了55.1AP的测试结果。

2024-08-13 20:39:16 1243

原创 Mask R-CNN 论文总结

我们提出了一种概念上简单、灵活且通用的对象实例分割框架。我们的方法可以高效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。该方法称为Mask R-CNN,它通过在现有的边界框识别分支之外,增加一个用于预测对象掩码的分支,从而扩展了Faster R-CNN。Mask R-CNN的训练过程简单,只对Faster R-CNN增加了很小的开销,运行速度为每秒5帧。此外,Mask R-CNN容易推广到其他任务,例如,使我们能够在相同框架下估计人体姿态。

2024-08-12 21:42:11 996

原创 SSD 论文总结

这篇文章中作者在网络的六个不同的层次提取了特征,最后将这些特征结合,让网络有了多尺度检测的能力,而且这个网络的速度相比于当时先进的two-stage网络(如:Faster R-CNN)有更快的速度和更高的准确率。SSD不同于目前比较主流的sliding windows和region proposal,它主要依靠不同尺度上的default boxes进行检测,避免了像sliding windows那样低效的方式,使得检测的速度更快。还结合了不同尺度的特征,使他有着更高的精确度。

2024-08-07 21:24:34 1075

原创 RetinaNet 论文总结

一般来说,one-stage的目标检测器在检测速度上有着明显优势,而two-stage的目标检测器的精确度比较高。但是RetinaNet的创造者们通过利用一种在cross entropy loss的基础上改进过的损失函数代替传统的损失函数,这使得一个one-stage的模型有了更高的速度和精确度。论文标题:Focal Loss for Dense Object Detection“目前最高准确度的目标检测器基于一种由R-CNN推广的两阶段方法,在稀疏的一组候选目标位置上应用分类器。

2024-08-05 19:57:46 1497

原创 YOLOv3 论文总结

YOLOv3是一个 one-stage 的目标检测网络。YOLOv3 作为 one-stage 方法的代表,其设计目标是实现实时的高效目标检测,在一次前向传播中直接输出检测结果。One-stage 方法: 如 YOLO (You Only Look Once) 系列和 SSD (Single Shot MultiBox Detector)。这些方法在一次前向传播中直接从输入图像中预测出目标的类别和位置。这类方法通常速度较快,因为它们省去了中间的候选区域生成步骤。

2024-08-04 16:31:41 969

原创 几种常见分类神经网络

当多个小卷积核堆叠时,尽管每层单独的感受野较小,但累积起来的感受野能够覆盖更大的区域,因此可以学习到更复杂的特征表示。4. 第二个卷积层(Conv2):包含 256 个大小为 5x5x48 的卷积核(48 是由于之前的池化层有 2 倍的通道数),步长为 1,使用 ReLU 激活函数。通过增加网络的深度,可以在特征空间中找到更有效的表示,这对于高精度的图像分类任务尤其重要。数据集上进行训练,这个数据集包含了大量的标注图像,为模型提供了丰富的训练数据,有助于提高模型的性能和泛化能力。

2024-08-04 12:27:51 3699

原创 Faster R-CNN 论文总结

RPN通过滑动窗口机制遍历从卷积神经网络传来的特征图,在每一个位置生成9个anchors(分别为 Scales:128² px, 256² px, 512² px Aspect Ratios:1:1,1:2,2:1),对于每个锚框,RPN 输出一个对象性得分(objectness score)和相应的边界框回归(bounding box regression)。2.从剩余的预测框中选择一个与基准框的重叠面积最大的框,如果其重叠面积大于一定的阈值,则将其删除。2.经过卷积神经网络生成的特征图;

2024-07-27 19:20:14 1125

原创 每周科研总结

日期:2024年07月19日本周的研究目标是通过阅读相关领域的金典论文,深入了解当前研究的方向。预期成果包括拓展知识面、寻找研究灵感,以及为后续的实验设计和数据分析奠定理论基础。

2024-07-19 21:16:40 1013 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除