- 博客(239)
- 收藏
- 关注
原创 CGBNet :Semantic Segmentation With Context Encoding and Multi-Path Decoding
本文提出了一种新型语义分割网络CGBNet,通过上下文编码和多路径解码提升分割性能。主要贡献包括:1)提出上下文编码模块,生成具有对比度的局部特征,有效增强不显著对象的分割效果;2)设计尺度选择方案,自适应融合多尺度特征;3)引入边界划定模块,利用低级特征优化边界预测。该网络在PASCAL Context等六个数据集上表现出色且稳定。创新点在于:对比局部特征结合上下文信息、门控机制选择多尺度特征、位置感知的边界优化方法。相比传统方法,CGBNet能更好地处理多尺度对象和边界细节问题。
2025-12-18 11:38:42
878
原创 Detecting Road Obstacles by Erasing Them
基于图像修复的道路异常障碍物检测方法 本文提出了一种仅需单目RGB图像的自动驾驶道路异常障碍物检测方法。针对训练数据中未包含的多样障碍物,该方法首先通过修复技术清除可行驶区域内的潜在障碍物,然后利用深度网络识别修复区域与原始图像的显著差异来检测异常。核心创新在于引入差异网络(Difference Network)来评估修复效果,而非直接依赖手工特征比较,从而有效克服了道路纹理多样性和修复不完美带来的误报问题。 方法流程分为两步:1)基于语义分割获取可行驶区域,采用滑动窗口方式用周边道路纹理修复疑似障碍区域;
2025-12-18 10:49:27
1121
原创 Survey on semantic segmentation using deep learning techniques
本文综述了基于深度学习的语义分割方法,首先将现有方法按架构特点分为10类,包括基于特征编码器、残差学习框架等方法。文章详细介绍了VGG网络、ResNet等核心架构及其变体,分析了它们在精度提升和计算优化方面的贡献。同时概述了33个公开数据集和主流评估指标,总结了100多种模型在各类任务中的表现。通过深入解析代表性方法的架构设计,揭示了其高性能的实现原理。最后讨论了该领域存在的开放性问题及潜在解决方案,为研究者提供了全面参考。
2025-12-17 18:02:59
1696
原创 Stacked U-Nets: A No-Frills Approach to Natural Image Segmentation
本文提出了一种堆叠U-Net(SUNets)架构,用于解决语义分割任务中保持高分辨率与获取全局信息的矛盾问题。传统方法通常通过增加复杂辅助模块或减少池化层来实现这一目标,但会带来参数激增和计算成本过高的问题。SUNets通过迭代堆叠U-Net模块,在不同分辨率尺度上反复整合特征,既保持了原始U-Net结构简单、参数少的优势,又能有效处理自然图像的复杂性。实验表明,最小SUNet模型在PASCAL VOC 2012数据集上mIoU比ResNet-101高4.5%,而参数减少7倍。该架构采用端到端训练,无需预训
2025-12-17 00:02:34
588
原创 DeepLab系列对比
V3: 把“上下文”再拉满(ASPP升级 + 全局池化分支),尽量摆脱CRF。V3+: 在V3的语义能力上加 decoder,把边界/小结构显著补回来。V1: 空洞卷积“保分辨率 + 大感受野”,CRF“修边”。V2: 用 ASPP 把“多尺度上下文”做成标配。
2025-12-15 19:55:53
116
原创 DeepLab(V3)
本文提出了DeepLabv3模型,通过改进空洞卷积模块来解决语义分割中的多尺度物体分割问题。作者设计了级联和并行(ASPP)两种空洞卷积模块,并引入图像级特征来增强全局上下文信息。实验表明,DeepLabv3在PASCAL VOC 2012数据集上达到了85.7%的优异性能,无需使用CRF后处理。该工作系统探讨了空洞卷积在密集特征提取和多尺度建模中的应用,为语义分割提供了新的解决方案。
2025-12-15 19:51:36
831
原创 DeepLab(V1)
摘要: DeepLab提出了一种结合空洞卷积与全连接条件随机场(CRF)的语义分割方法,解决了深度卷积神经网络(DCNN)在像素级分类任务中因空间不变性导致的定位不精确问题。通过空洞卷积高效提取密集特征,并利用CRF优化边界细节,该系统在PASCAL VOC-2012测试集上达到71.6%的交并比(IoU),刷新了当时的最佳性能。其优势包括:高速(8帧/秒的DCNN计算+0.5秒CRF推理)、高精度(超越第二名7.2%)和结构简洁性(仅DCNN与CRF级联)。相关工作对比显示,DeepLab通过端到端整合像
2025-12-15 19:16:20
586
原创 DeepLab(V2)
本文提出了一种基于深度学习的语义图像分割方法DeepLab,其核心贡献包括:(1) 采用空洞卷积技术提升特征分辨率,在不增加计算量的情况下扩大感受野;(2) 提出空洞空间金字塔池化(ASPP)结构,通过多尺度采样捕获不同大小的物体和上下文信息;(3) 结合全连接条件随机场(CRF)优化边界定位精度。该系统在PASCAL VOC-2012等数据集上取得79.7%的mIOU,达到当时最优性能。实验表明,DeepLab具有高效(8FPS)、准确和简洁的特点,通过级联DCNN和CRF模块,有效解决了特征分辨率降低、
2025-12-15 18:27:31
677
原创 DeepLabV3+
DeepLabv3+提出了一种结合空间金字塔池化与编解码器结构的语义分割模型,通过引入改进的解码器模块优化边界细节。该模型以DeepLabv3为编码器,利用空洞卷积灵活控制特征分辨率,并集成深度可分离卷积降低计算成本。在解码阶段,通过融合低级特征和4倍上采样恢复精细边界。实验表明,该模型在PASCAL VOC 2012和Cityscapes数据集上分别达到89.0%和82.1%的领先性能,无需后处理即可实现高效准确的分割。核心贡献包括:1) 高效的编解码架构;2) 空洞卷积的灵活应用;3) 深度可分
2025-12-14 02:47:48
1108
原创 PIX2SEQ: A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTION
我们提出了Pix2Seq,一个简单而通用的目标检测框架。与现有的明确集成有关任务的先验知识的方法不同,我们将对象检测作为一种基于观察到的像素输入的语言建模任务。对象描述(例如,边界框和类标签)被表示为离散标记的序列,我们训练神经网络来感知图像并生成所需的序列。我们的方法主要是基于直觉,如果神经网络知道物体在哪里和是什么,我们只需要教它如何读取它们。除了使用特定于任务的数据增强之外,我们的方法对任务进行了最小的假设,但与高度专业化和优化的检测算法相比,它在具有挑战性的COCO数据集上取得了具有竞争力的结果。
2025-08-19 16:20:20
1168
原创 SET: Spectral Enhancement for Tiny Object Detection(CVPR2025)
本文提出了一种针对 Tiny Object Detection(TOD)任务的新型方法——Spectral Enhancement for Tiny object detection(SET)。通过对特征编码后的小物体进行频域分析,发现高频信息对小物体识别造成了干扰,因而设计了通过抑制背景中的高频信息来增强小物体检测性能的方法。具体地,SET 包含两个模块:层次化的背景平滑(HBS)模块和对抗扰动注入(API)模块。
2025-07-23 16:16:32
1621
2
原创 RGBA图片格式转换为RGB格式(解决convert转换的失真问题)
OpenCV 的 cv2.cvtColor(…, cv2.COLOR_BGRA2GRAY) 会直接忽略 Alpha 通道的含义,将它当作第四个颜色通道来处理。也就是说,即使 Alpha 为 0(完全透明),它也会参与这个公式,导致原本透明区域的像素值被错误地计算成一个“伪灰度值”。
2025-07-17 17:33:31
505
原创 Point Transformer V2: Grouped Vector Attention and Partition-based Pooling
摘要 本文提出了Point Transformer V2(PTv2),一种改进的三维点云Transformer架构。针对PTv1存在的参数效率低、位置编码不足和池化效率低等问题,作者提出了三项创新设计:(1) 分组向量注意力机制(GVA),通过共享权重编码降低参数量,同时继承多头注意力和向量注意力的优势;(2) 增强的位置编码方案,通过位置编码乘数强化几何信息;(3) 基于分区的池化策略,使用均匀网格划分实现高效的空间对齐聚合。实验表明,PTv2在ScanNet v2、S3DIS等基准测试中达到了新的最先进
2025-07-09 16:37:07
965
2
原创 Point Transformer
本文提出了一种基于自注意力机制的"点Transformer"网络,用于3D点云处理。点云作为无序且不规则的3D数据,传统卷积方法难以直接处理。作者设计了具有置换不变性的点Transformer层,采用局部向量自注意力机制,结合位置编码,有效捕捉点云几何特征。基于该层构建的网络在多个任务中取得突破性成果:在S3DIS数据集上mIoU首次突破70%(70.4%),ModelNet40分类准确率达93.7%,ShapeNetPart部件分割mIoU达86.6%。相比基于投影、体素或图的方法,点
2025-07-07 11:23:57
1320
原创 Point Transformer V3: Simpler, Faster, Stronger
摘要 本文提出Point Transformer V3(PTv3),一种高效可扩展的点云Transformer架构。针对现有点云Transformer在精度与效率间的权衡问题,PTv3通过简化设计实现规模扩展,主要贡献包括:1)采用序列化邻域映射替代KNN搜索,提升计算效率;2)简化注意力交互机制,降低内存消耗;3)去除相对位置编码,改用稀疏卷积层。实验表明,PTv3将感受野从16点扩展到1024点,推理速度提升3.3倍,内存效率提高10.2倍。在20多个室内外场景任务中达到SOTA性能,多数据集联合训练进
2025-07-03 10:48:05
1775
原创 EdgeNAT: Transformer for Efficient Edge Detection
EdgeNAT: 基于Transformer的高效边缘检测方法 EdgeNAT是一种创新的单阶段边缘检测器,采用Dilated Neighborhood Attention Transformer (DiNAT)作为编码器,结合新型SCAF-MLA解码器,实现了高效的边缘检测。该方法通过DiNAT同时捕捉全局上下文和局部细节,解决了传统CNN方法在全局特征提取上的不足。SCAF-MLA解码器创新性地整合了空间和通道注意力机制,增强了特征表示能力。实验表明,EdgeNAT在BSDS500数据集上达到86.0%
2025-06-27 15:07:05
1035
原创 CADSpotting: Robust Panoptic Symbol Spotting on Large-Scale CAD Drawings
本文提出了一种针对大规模建筑CAD图纸的泛视符号识别方法——CADSpotting,解决了现有方法在处理符号多样性、尺度变化和重叠元素时的局限。该方法通过密集点采样将CAD原语转换为3D点云表示,利用坐标和颜色等属性构建鲁棒特征,并使用滑动窗口聚合(SWA)技术结合加权投票与NMS实现高效分割。此外,作者发布了LS-CAD数据集,包含50个覆盖面积超1000平方米的精细标注平面图,显著超越现有基准。实验表明,CADSpotting在FloorPlanCAD和LS-CAD上表现优越,并验证了其在自动化
2025-06-25 09:03:12
925
原创 SymPoint Revolutionized: Boosting Panoptic Symbol Spotting with Layer Feature Enhancement
SymPoint[12]是利用点集表示法解决CAD制图中全光符号定位任务的初步尝试。尽管它取得了相当大的成功,但它忽略了图形层信息,并且训练收敛速度非常慢。为了解决这个问题,我们引入了SymPoint-V2,这是一个强大而高效的解决方案,具有新颖的流线型设计,克服了这些限制。特别是,我们首先提出了一种层特征增强模块(Layer feature - enhanced module, LFE),将图形层信息编码为原始特征,显著提高了性能。
2025-06-13 14:26:19
934
原创 Feature Information Driven Position Gaussian Distribution Estimation for Tiny Object Detection(pr25)
摘要 本文针对微小目标检测中因像素信息有限导致的弱表征问题,提出了一种基于特征信息驱动的增强方法。通过最小化信息熵损失,我们无监督地生成信息图(σ)以突出高信息量的关键区域。进一步引入位置高斯分布图(Mpd),利用高斯混合模型显式建模目标位置与尺度分布,在信息图先验指导下通过多尺度特征预测模块增强微小目标区域的关注度。实验表明,该方法在三个公开微小目标数据集上优于现有技术,能有效提升检测器对微小目标的识别能力。主要贡献包括:1) 首创从像素信息量角度增强微小目标表征;2) 结合信息熵与高斯分布建模的协同优化
2025-06-11 14:54:41
1199
3
原创 Symbol as Points: Panoptic Symbol Spotting via Point-based Representation
本文提出SymPoint方法,用于CAD图纸的全光学符号识别任务。不同于传统的光栅化或图神经网络方法,该方法将图形原语视为局部连接的2D点集,采用点云分割技术进行处理。具体创新包括:1)利用点转换器提取特征并附加类似Mask2Former的点阵头进行预测;2)提出连接模块关注(ACM)和对比连接学习(CCL)机制,增强原语连接信息的利用;3)设计KNN插值策略处理掩模下采样,解决原始掩模稀疏性问题。实验表明,SymPoint在FloorPlanCAD数据集上PQ和RQ指标分别绝对提升9.6%和10.4%,显
2025-06-05 17:49:22
947
原创 SCUNet++
肺栓塞(Pulmonary embolism, PE)是一种常见的肺部疾病,严重者可导致右心室肥厚和衰竭,其严重程度仅次于心肌梗死和猝死。肺动脉CT血管造影(CTPA)是一种广泛应用的PE诊断方法。然而,由于成像技术的限制,PE检测在临床实践中提出了挑战。CTPA会产生与PE类似的噪声,这使得确认其存在非常耗时,并且容易被过度诊断。然而,传统的PE分割方法不能充分考虑PE CT图像的特征层次结构、局部和全局空间特征。在本文中,
2025-05-27 14:34:27
1111
原创 TransPose: Keypoint Localization via Transformer(ICCV2021)
虽然基于cnn的模型在人体姿势估计方面取得了显著进展,但它们捕获的空间依赖关系来定位关键点仍不清楚。在这项工作中,我们提出了一个名为转置的模型,该模型引入了用于人体姿态估计的Transformer。Transformer中内置的注意层使我们的模型能够有效地捕获远程关系,并且还可以揭示预测的关键点所依赖的依赖关系。为了预测关键点热图,最后一个注意层作为聚合器,收集图像线索的贡献,形成关键点的最大位置。这种通过Transformer基于热图的定位方法符合激活最大化[20]的原则。
2025-05-09 14:42:21
977
原创 VIT(ICLR2021)
虽然Transformer架构已经成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络一起应用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。对cnn的这种依赖是不必要的,直接应用于图像块序列的纯transformer可以在图像分类任务上表现很好。
2025-04-29 18:49:06
1077
原创 常见的梯度报错 one of the variables needed for gradient computation has been modified by an inplace operati
因为 PyTorch 的反向传播依赖Autograd 版本管理系统。当链式调用叠加、同时中间存在 in-place 或复杂操作时,很容易造成“旧版本被新版本覆盖”,反向传播时就爆炸。拆分操作 → 保证每一步显式可追踪。+= 以及其余连续操作全拆开即可。
2025-04-15 10:14:13
184
原创 VPN(2020)Cross-view Semantic Segmentation for Sensing Surroundings
感知环境在人类空间感知中起着至关重要的作用,它从观察中提取物体的空间形态以及自由空间。为了使机器人具有这种周围感知能力,我们引入了一种新的视觉任务,称为跨视图语义分割,以及一个名为视图解析网络(VPN)的框架来解决它。在跨视图语义分割任务中,训练智能体将第一视图的观察结果解析成一个自上而下的语义图,该图在像素级上指示所有对象的空间位置。这项任务的主要问题是我们缺乏对自顶向下视图数据的真实注释。为了解决这个问题,我们在3D图形环境中训练VPN,并利用域适应技术将其传输到处理现实世界的数据。
2025-04-06 09:25:23
1280
原创 Pseduo LiDAR(CVPR2019)
三维目标检测是自动驾驶中的一项重要任务。如果3D输入数据是从精确但昂贵的激光雷达技术获得的,那么最新的技术具有高精度的检测率。到目前为止,基于更便宜的单眼或立体图像数据的方法导致精度大大降低——这一差距通常归因于基于图像的深度估计不佳。然而,在本文中,我们认为这不是数据的质量,而是它的表示,占大部分的差异。考虑到卷积神经网络的内部工作原理,我们建议将基于图像的深度图转换为伪激光雷达表示-本质上模仿激光雷达信号。利用这种表示,我们可以应用不同的现有的基于激光雷达的检测算法。
2025-04-05 21:05:06
909
原创 OFP--2018
事实证明,从单眼图像中检测3D物体是一项极具挑战性的任务,目前领先的系统的性能甚至还达不到基于激光雷达的同类系统的10%。对这种性能差距的一种解释是,现有的系统完全受基于透视图像的表示的支配,其中物体的外观和规模随着深度和有意义的距离而急剧变化,很难推断。在这项工作中,我们认为对3D世界进行推理的能力是3D物体检测任务的基本要素。为此**,我们引入了正交特征变换,它使我们能够通过将基于图像的特征映射到正交三维空间来逃避图像域**。
2025-04-05 20:39:36
841
原创 BEVHeight(CVPR2023):A Robust Framework for Vision-based Roadside 3D Object Detection
虽然最近的自动驾驶系统专注于开发基于自我车辆传感器的感知方法,但人们往往忽略了利用智能路边摄像头将感知能力扩展到视觉范围之外的另一种方法。我们发现最先进的以视觉为中心的鸟瞰图检测方法在路边摄像头上的性能较差。这是因为这些方法主要集中在相机中心的深度恢复上,随着距离的增加,车与地面的深度差会迅速缩小。在本文中,我们提出了一种简单而有效的方法,称为BEVHeight,来解决这个问题。从本质上讲,我们不是预测像素深度,而是将高度回归到地面,以实现距离不可知的公式,以简化仅相机感知方法的优化过程。
2025-04-05 15:55:42
1178
原创 BEVFormer v2(CVPR2023)
作者提出了一种具有视角监督的新型鸟瞰(BEV)检测器,该检测器收敛速度更快,更适合现代图像主干。现有的最先进的BEV检测器通常与VoVNet等深度预训练的主干相关联,阻碍了蓬勃发展的图像主干与BEV检测器之间的协同作用。为了解决这一限制,我们优先考虑通过引入透视视图监督来简化BEV检测器的优化。为此,我们提出了一种两阶段的BEV探测器,其中来自视角头部的建议被馈送到鸟瞰头部以进行最终预测。为了评估我们的模型的有效性,我们进行了广泛的消融研究,重点是监督的形式和提议的检测器的一般性。
2025-04-05 13:56:30
1244
原创 Social GAN(CVPR2018)
理解人类的运动行为对于自主移动平台(如自动驾驶汽车和社交机器人)来说是至关重要的,如果它们要在以人为中心的环境中导航的话。这是具有挑战性的,因为人类的运动本质上是多模态的:考虑到人类运动路径的历史,有许多社会上合理的方式,人们可以在未来移动。我们通过结合序列预测和生成对抗网络的工具来解决这个问题:一个循环的序列到序列模型-服务于运动历史并预测未来行为,使用新的池化机制来聚合人们之间的信息。我们预测社会合理的未来,通过训练和普遍反对一个循环的鉴别器,并鼓励多样化的预测与一个新的多样性损失。
2025-04-05 10:34:14
977
原创 RuntimeError: one of the variables needed for gradient computation has been modified by an inplace
一般都是使用了+=、-=、/=类的操作比如a+=b,改为 a = a+b即可可使用 torch.autograd.set_detect_anomaly(True) 来帮助定位具体哪个操作导致了问题
2025-03-13 09:25:20
238
原创 Decoupled Contrastive Learning for Long-Tailed Recognition
有监督对比损失(SCL)在视觉表征学习中非常流行。给定一个锚点图像,SCL将两种类型的正样本(即其增强图像和来自同一类的其他图像)拉到一起,同时将负图像分开,以优化学习嵌入。在长尾识别的场景中,每一类样本的数量是不平衡的,平等地对待两类正样本会导致对类别内距离的偏置优化。此外,负样本间的相似关系虽然被SCL忽略,但也提供了有意义的语义线索。为了提高长尾识别的性能,本文通过解耦训练目标来解决长尾识别中的这两个问题。
2024-11-20 18:46:24
974
原创 ModuleNotFoundError: No module named ‘mmcv.transforms‘
升级后自然又面临一系列不兼容问题!mmcv升级到2.0.0即可解决。
2024-09-08 11:56:24
1086
1
原创 DNTR——F
由于图像数据中微小物体所占像素比例很小,因此精确地检测这些物体仍然是一个巨大的挑战。特别是在地理科学和遥感领域,高保真度的微小物体检测可以促进城市规划和环境监测等应用的发展。特征金字塔网络中的特征融合对于多尺度目标的检测至关重要。但是,由于不同尺度的特征之间没有正则化,在融合过程中可能会产生噪声特征。因此,作者提出了一个新的框架DNTR,它由DeNoising FPN模块和Trans R-CNN检测器组成。
2024-08-08 11:13:47
1473
原创 SimD_F
由于微小目标的大小和信息的缺乏,微小目标检测已成为计算机视觉中最具挑战性的任务之一。标签分配策略是影响目标检测精度的关键因素。虽然有一些针对微小物体的有效的标签分配策略,但它们大多侧重于降低对边界框的敏感性以增加阳性样本的数量,并且需要设置一些固定的超参数。然而,更多的阳性样本并不一定意味着更好的检测结果,事实上,过多的阳性样本可能会导致更多的假阳性。在本文中,作者引入了一种简单而有效的策略——相似距离(SimD)来评估边界框之间的相似度。
2024-08-06 15:21:34
1365
原创 SRTOD——F
微小目标检测是目标检测领域的关键问题之一。大多数通用检测器的性能在微小目标检测任务中显著下降。主要的挑战在于如何提取微小物体的有效特征。现有的方法通常是基于生成的特征增强,这种方法受到虚假纹理和伪影的严重影响,难以使微小物体的特征清晰可见,便于检测。作者提出了一种自重构微小目标检测(SR-TOD)框架,有效缓解了信息丢失问题。作者首次在检测模型中引入了自重构机制,并发现了自重构机制与微小目标之间的强相关性。
2024-08-06 15:21:04
1553
2
原创 DotD_F
随着基于锚点和无锚点检测器的发展,目标检测取得了很大的进步。然而,由于缺乏外观信息,微小物体的检测仍然具有挑战性。在本文中,作者观察到在目标检测中最广泛使用的度量IoU (Intersection over Union)在检测微小目标时对预测边界框与地面真值之间的轻微偏差很敏感。虽然提出了一些新的指标,如GIoU、DIoU和CIoU,但它们在微小目标检测上的性能仍然远远低于预期水平。
2024-08-06 15:20:38
1272
yolo系列论文解读11
2023-11-29
Perseus 软件体系结构顶会,fast2023最佳两篇论文之一
2023-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅