c7d8e9
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
85、开放词汇语义分割的简单基线方法
本文提出了一种简单而有效的两阶段框架,用于开放词汇语义分割任务。该框架利用预训练的视觉-语言模型(如CLIP)对图像中的物体进行分割,并能够处理未见过的类别。通过在Pascal VOC 2012和COCO Stuff等数据集上的大量实验,验证了该方法在零样本设置下的优越性能,同时分析了图像编码器、掩码提议生成方法以及预训练数据对性能的影响。研究结果表明,所提框架在多个评估指标上显著优于现有先进方法,为开放词汇语义分割领域提供了强大的基线。原创 2025-08-22 10:45:20 · 62 阅读 · 0 评论 -
84、开放词汇语义分割的简单基线方法
本文提出了一种简单而有效的开放词汇语义分割方法,基于两阶段框架和视觉-语言预训练模型CLIP的结合,在跨数据集和零样本设置下均展现出优异的性能。方法通过掩码提议生成和基于CLIP的区域分类,充分利用已见类的知识对未见类进行准确分割,并通过多个实验验证了各组件的有效性及互补性。该方法在多个数据集上超越了传统零样本方法和并发工作,展现了强大的泛化能力。原创 2025-08-21 09:06:24 · 44 阅读 · 0 评论 -
83、基于斯佩尔克对象推理的无监督分割与开放词汇语义分割方法
本文介绍了两种计算机视觉领域的创新方法:基于斯佩尔克对象推理的EISEN无监督分割模型和基于CLIP的两阶段开放词汇语义分割框架。EISEN通过将对象运动视为关系学习信号,结合自下而上的分组和自上而下的推理,在无监督和弱监督场景下表现出色,尤其适用于机器人视觉和视频监控等复杂场景。两阶段框架则通过类别无关的掩码提议生成和基于CLIP的开放词汇分类,有效解决了语义分割中粒度不一致的问题,在零样本分割任务中性能优越,具有广泛的应用前景。原创 2025-08-20 09:41:17 · 32 阅读 · 0 评论 -
82、基于斯佩尔克对象推理的无监督分割:EISEN网络的原理与实践
本文介绍了EISEN网络,一种基于斯佩尔克对象推理的无监督分割方法。EISEN通过亲和性预测、万花筒传播和竞争模块,实现了对静态图像的高质量对象分割。该方法无需像素级标注数据,结合了自上而下的推理机制,在多个数据集上表现出色,并为未来的研究和应用提供了新的方向。原创 2025-08-19 14:46:45 · 50 阅读 · 0 评论 -
81、基于拓扑交互与斯佩尔克对象推理的图像分割技术
本文介绍了两种创新的图像分割方法:基于拓扑交互的图像分割方法和基于斯佩尔克对象推理的无监督图像分割方法。基于拓扑交互的方法通过引入拓扑交互损失,在多个数据集上显著提高了分割质量,并且在消融研究中表现出良好的有效性和鲁棒性;基于斯佩尔克对象推理的方法通过创新的架构和训练方案,为自监督、类别无关的图像分割提供了新的解决方案。这两种方法在实际应用中可根据具体需求进行选择和综合使用,为图像分割领域的发展提供了重要贡献。原创 2025-08-18 09:04:03 · 49 阅读 · 0 评论 -
80、多类医学图像分割中的拓扑交互学习
本文提出了一种基于卷积操作的拓扑交互模块,用于多类医学图像分割。该模块能够高效地编码包含和排斥等全局拓扑约束,并自然融入深度神经网络训练过程,显著提升分割质量。实验表明,该方法在多个医学图像数据集上表现出色,具有良好的通用性和应用前景。原创 2025-08-17 11:57:00 · 23 阅读 · 0 评论 -
79、基于类别排序的自适应像素分类用于分割
本文提出了一种基于类别排序的自适应像素分类方法(RankSeg),通过将分割任务分解为多标签分类和标签选择下的像素分类两个子任务,实现了对多种语义分割模型的有效改进。方法采用联合多任务方案,共享骨干网络以提升计算效率,并通过类别嵌入排序和选择机制优化语义分割预测。实验表明,该方法在多个图像语义分割、全景分割、视频语义分割和视频实例分割基准上均取得了显著性能提升,具有良好的通用性和应用潜力。原创 2025-08-16 09:38:14 · 33 阅读 · 0 评论 -
78、自适应像素分类:基于类别排序的图像分割方法
本文提出了一种基于类别排序的自适应像素分类方法,用于图像和视频分割任务。通过将分割重新表述为多标签分类和自适应像素分类两个子问题,利用图像实际包含的类别信息,显著提升了分割性能。文中介绍了两种实施方案:独立单任务方案和联合多任务方案,并通过实验验证了方法在多个数据集上的有效性。该方法为分割任务提供了一个新的视角,强调了多标签分类在提升分割精度中的关键作用。原创 2025-08-15 09:13:30 · 35 阅读 · 0 评论 -
77、视频实例分割技术:MS - STS VIS与RankSeg的创新与突破
本文介绍了两种视频实例分割技术:MS-STSVIS和RankSeg。MS-STSVIS通过引入多尺度时空分割注意力模块和对抗损失,在YouTube-VIS数据集上取得了先进的性能,尤其在目标外观变形的场景中表现优异。RankSeg则通过将分割任务分解为多标签分类和排名自适应像素分类,有效提升了多种分割任务的性能。两种技术为视频实例分割和通用分割任务带来了新的思路和突破。原创 2025-08-14 15:30:40 · 48 阅读 · 0 评论 -
76、基于多尺度时空分割注意力Transformer的视频实例分割
本文介绍了一种基于Transformer的视频实例分割框架MS-STSVIS,通过引入多尺度时空分割(MS-STS)注意力模块、增强解码器中的时间一致性以及引入对抗损失,有效解决了现有VIS方法在处理目标外观变形和前景-背景分离方面的不足。实验结果表明,MS-STSVIS在Youtube-VIS 2019和2021数据集上表现优异,超越了现有技术。原创 2025-08-13 11:51:59 · 43 阅读 · 0 评论 -
75、全球光谱滤波记忆网络用于视频对象分割
本文提出了一种用于半监督视频对象分割的全球光谱滤波记忆网络(GSFM)。通过在编码器中增强低频分量以获取高级语义信息,在解码器中增强高频分量以突出细粒度细节,GSFM有效提升了视频对象分割的精度和鲁棒性。实验表明,GSFM在DAVIS和YouTube-VOS等多个数据集上均取得了优异的性能表现,并在复杂场景中展现出比现有方法更强的处理能力。此外,GSFM具有良好的泛化能力,为相关领域的研究和应用提供了新的思路。原创 2025-08-12 13:05:21 · 28 阅读 · 0 评论 -
74、用于视频对象分割的全局频谱滤波记忆网络
本文提出了一种用于视频对象分割的全局频谱滤波记忆网络(GSFM),通过在频谱域融合全局依赖关系,有效解决了现有方法在帧内依赖挖掘和对象边界分割方面的不足。GSFM引入了低频模块(LFM)和高频模块(HFM),分别用于增强编码器和解码器中的低频和高频特征分量,从而提升模型的语义表达能力和细粒度预测能力。实验结果表明,GSFM在DAVIS和YouTube-VOS数据集上显著优于现有基线方法,具有良好的鲁棒性和泛化能力。原创 2025-08-11 12:23:01 · 35 阅读 · 0 评论 -
73、SPSN:用于 RGB - D 显著目标检测的超像素原型采样网络
本文提出了一种基于超像素原型采样网络(SPSN)的 RGB-D 显著目标检测方法。该方法通过设计四个新颖的模块(FFM、PGM、PSNM 和 RSM),有效抑制了背景干扰,充分利用了 RGB 和深度图的信息,显著提升了显著目标检测的准确性。实验表明,该模型在多个流行数据集上表现优异,特别是在 NJU2K 和 DES 数据集上优于其他先进方法。原创 2025-08-10 14:36:22 · 43 阅读 · 0 评论 -
72、SPSN:用于RGB - D显著目标检测的超像素原型采样网络
本文提出了一种用于RGB-D显著目标检测的超像素原型采样网络(SPSN)。通过将RGB图像和深度图分割为超像素组件,并结合原型采样和依赖选择模块,SPSN有效解决了RGB和深度图之间的不匹配问题,减少了背景噪声的影响,并提高了对低质量深度图的鲁棒性。实验表明,SPSN在多个数据集上达到了最先进的性能,具有较高的检测准确性和清晰的显著性掩码。原创 2025-08-09 14:31:42 · 59 阅读 · 0 评论 -
71、BATMAN:用于半监督视频目标分割的创新架构
本文介绍了一种用于半监督视频目标分割(VOS)的创新架构 BATMAN。该模型通过双边注意力机制和光流校准模块,在多个基准数据集(如 YouTube-VOS 和 DAVIS)上取得了优于现有方法的性能表现。BATMAN 的训练策略、实验结果、消融研究以及应用场景均被详细讨论,并指出了其在处理复杂运动场景中的局限性及未来改进方向。原创 2025-08-08 14:32:18 · 27 阅读 · 0 评论 -
70、BATMAN:用于视频对象分割的运动 - 外观邻域空间双边注意力变压器
本文提出了一种用于半监督视频对象分割(VOS)任务的新型架构BATMAN,该架构结合了运动和外观信息的双边注意力模块以及光流校准模块,以解决现有方法在视觉相似对象区分和光流噪声处理方面的不足。BATMAN在多个VOS基准数据集上取得了优异的性能表现,展现出在视频理解领域的广泛应用前景。原创 2025-08-07 15:08:11 · 37 阅读 · 0 评论 -
69、Point MixSwap:用于点云数据增强的创新方法
本文介绍了一种创新的3D点云数据增强方法——Point MixSwap,该方法通过分解点云并交换匹配的部分来生成多样化且保留结构的增强样本。Point MixSwap支持输入级别和特征级别的混合操作,并引入了主轴线对齐机制以提升未对齐点云数据的性能。实验结果表明,该方法在多个点云数据集(如ModelNet40、ModelNet10和ScanObjectNN)上显著提升了模型的分类和检索性能,尤其在训练数据有限的情况下效果显著。此外,文章还分析了Point MixSwap的局限性,并展望了其未来的发展方向。原创 2025-08-06 09:51:41 · 41 阅读 · 0 评论 -
68、Point MixSwap:通过交换匹配结构分区实现注意力点云混合
本文介绍了一种创新的3D点云数据增强方法——Point MixSwap,通过交换匹配的结构分区来生成多样化的点云数据。该方法利用编码器-解码器架构和划分混合交换机制,探索同一类点云之间的结构差异,有效提升了点云分类任务的性能。实验表明,Point MixSwap在ModelNet40和ModelNet10基准测试中取得了最先进的结果,同时具有端到端可训练、无需逐部分标注和广泛的适用性等优势。原创 2025-08-05 16:27:41 · 41 阅读 · 0 评论 -
67、联合集多源模型自适应方法研究
本文提出了一种联合集多源模型自适应方法,旨在解决源域标签空间的并集等于目标域标签空间的语义分割问题。方法包括两个主要阶段:阶段一通过模型不变特征学习策略训练多个骨干网络和分类器,以提升目标域的泛化能力;阶段二利用知识蒸馏进行模型集成,训练一个最终模型,兼顾性能和推理效率。实验表明,该方法在非重叠、部分重叠和完全重叠标签空间设置下均表现优异,优于现有的单源和多源模型自适应方法。原创 2025-08-04 11:21:43 · 34 阅读 · 0 评论 -
66、联合集多源模型自适应用于语义分割的研究
本文研究了联合集多源模型自适应(US-MSMA)方法在语义分割中的应用,旨在解决在不直接使用源域数据的情况下,如何将多个源域的预训练模型知识迁移到无标签目标域的问题。提出了一种两阶段方法,包括模型自适应阶段和模型集成阶段。模型自适应阶段通过伪标签自训练、跨模型一致性、对抗学习等策略,提升模型在目标域的泛化能力;模型集成阶段则通过知识蒸馏将多个源模型的知识整合到最终模型中。实验结果表明,该方法在 Cityscapes 等数据集上显著优于传统 UDA 和现有模型自适应方法,验证了其有效性与优越性。原创 2025-08-03 15:01:10 · 32 阅读 · 0 评论 -
65、探索 Geodesic-Former:用于少样本 3D 点云实例分割的新方法
本文介绍了一种用于少样本 3D 点云实例分割的新方法 Geodesic-Former。该方法通过结合相似性网络、变压器解码器和测地距离嵌入,解决了传统方法在少样本情况下前景与背景分类混淆的问题。文章详细阐述了 Geodesic-Former 的技术亮点、训练策略、实验设置以及与现有方法的比较,证明了其在 ScannetV2 和 S3DIS 数据集上的性能优势。此外,还讨论了该方法的局限性及未来研究方向,为少样本 3D 点云实例分割领域的发展提供了新思路。原创 2025-08-02 10:29:13 · 49 阅读 · 0 评论 -
64、Geodesic-Former:用于少样本3D点云实例分割的创新方法
本文提出了一种创新的少样本3D点云实例分割方法——Geodesic-Former。该方法针对训练和测试类别不相交的挑战性任务,通过结合动态卷积与基于测地距离引导的变压器解码器,有效解决了3D点云密度不平衡及跨类别泛化能力差的问题。文章还介绍了新任务设定、相关工作的对比分析以及Geodesic-Former的具体实现细节,包括上下文和锚点的准备、测地距离嵌入计算、变压器解码器设计等。实验表明,该方法在ScannetV2和S3DIS数据集改编的新分割方式下表现优异,为3D点云处理领域提供了新的研究方向和解决方案原创 2025-08-01 12:56:28 · 50 阅读 · 0 评论 -
63、拉普拉斯网格变换器:3D形状分析的新突破
本文介绍了拉普拉斯网格变换器,一种基于三角网格并应用自注意力机制的3D形状分析方法。该方法能够高效提取形状的拓扑和几何特征,在形状分类和分割任务中表现出色,优于许多现有方法。文章详细阐述了其技术优势、应用场景及未来研究方向,并展示了在ShapeNet、ModelNet和COSEG等数据集上的实验结果和消融实验分析。原创 2025-07-31 12:01:37 · 117 阅读 · 0 评论 -
62、Laplacian Mesh Transformer:用于3D网格分类和分割的双注意力与拓扑感知网络
本文提出了一种基于自注意力机制的新型深度架构——Laplacian Mesh Transformer,用于解决3D多边形网格的分类和分割任务。该方法通过引入双注意力机制,结合几何和拓扑信息,有效捕捉3D形状的关键特征。实验表明,该模型在ShapeNet和COSEG数据集上表现优异,优于现有技术,具有良好的鲁棒性和潜在的应用前景。原创 2025-07-30 11:53:41 · 43 阅读 · 0 评论 -
61、IAI: 一种通用的视频实例分割在线范式
本文介绍了一种新颖的视频实例分割(VIS)在线范式——IAI,通过引入高效的关联机制和混合关联块(HAB),实现了高效的多对象跟踪与分割。该方法在多个大规模数据集(如YouTube-VIS和OVIS)上表现出色,尤其在处理遮挡场景方面具有显著优势。文章还详细探讨了模型的各个组件对性能的影响,验证了IAI范式的通用性和有效性。原创 2025-07-29 15:04:43 · 43 阅读 · 0 评论 -
60、实例即身份:视频实例分割的通用在线范式
本文提出了一种名为实例即身份(Instance As Identity,IAI)的通用在线视频实例分割(VIS)范式。IAI通过统一的框架实现了检测、分割和跟踪的集成,采用新颖的识别模块和高效的混合关联块(HAB),在多个具有挑战性的VIS基准测试中表现出色,尤其在处理遮挡场景和实时在线推理方面展现出显著优势。原创 2025-07-28 10:02:24 · 32 阅读 · 0 评论 -
59、量子运动分割:原理、实验与前景
本文介绍了一种基于绝热量子优化的量子运动分割方法(QuMoSeg),该方法通过将运动分割问题建模为二次无约束二进制优化(QUBO)问题,并在 D-Wave 的量子计算机上进行求解。文章详细探讨了 QuMoSeg 的原理、相关工作、实验设置与结果分析,并与传统方法如 Mode 和 Synch 以及量子方法 QSync 进行比较。实验表明,QuMoSeg 在小规模问题上表现出色,但受当前量子硬件的限制,在大规模问题上仍有挑战。最后,文章展望了量子运动分割在计算机视觉领域的未来发展方向。原创 2025-07-27 15:39:30 · 37 阅读 · 0 评论 -
58、量子运动分割:开启计算机视觉新征程
本文介绍了一种基于绝热量子计算(AQC)的运动分割新方法,将运动分割问题转化为二次无约束二进制优化(QUBO)问题,以利用量子计算的优势进行求解。文章提出了两种方法QuMoSeg-v1和QuMoSeg-v2,并在新创建的真实数据集Q-MSEG上进行了实验验证。结果显示,所提方法在准确率和对噪声的鲁棒性方面表现优异,显示出量子计算在运动分割任务中的潜力。原创 2025-07-26 11:55:38 · 40 阅读 · 0 评论 -
57、语义分割中的隐式特征对齐函数研究
本文提出了一种隐式特征对齐函数(IFA),用于解决语义分割中的特征对齐问题。通过将多级特征表示为连续特征场,IFA实现了精确且高效的特征对齐。实验表明,IFA在Cityscapes、PASCAL Context和ADE20K等多个数据集上均取得了有竞争力的结果,并在分割准确性和计算成本之间实现了良好的平衡。原创 2025-07-25 14:14:45 · 23 阅读 · 0 评论 -
56、语义分割的隐式特征对齐函数学习
本文提出了一种新颖的隐式特征对齐函数(IFA),用于高效且精确地聚合不同层次的特征进行语义分割。通过将图像输入到卷积网络,IFA以无分辨率的方式对齐特征,并允许解码到任意分辨率。实验表明,IFA在多个数据集(包括Cityscapes、PASCAL Context和ADE20K)上均取得了最先进的计算-精度权衡,同时具备高效精确的特征对齐、灵活性强以及性能优越等特点。原创 2025-07-24 11:30:39 · 47 阅读 · 0 评论 -
55、用于视频对象分割的质量感知动态内存学习
本文提出了一种用于视频对象分割的质量感知动态内存网络(QDMN),通过引入先验增强策略和动态内存管理机制,显著提升了分割性能。QDMN在DAVIS和YouTube-VOS等数据集上表现优异,且具有良好的通用性和应用前景。原创 2025-07-23 14:27:22 · 18 阅读 · 0 评论 -
54、基于质量感知动态记忆的视频目标分割方法
本文提出了一种基于质量感知动态记忆网络(QDMN)的半监督视频目标分割方法,旨在解决现有基于时空记忆方法中存在的误差累积问题和处理长视频能力受限的问题。通过引入质量评估模块(QAM)来评估每帧的分割质量,并结合时间一致性动态更新记忆库,QDMN 在 DAVIS 和 YouTube-VOS 数据集上取得了最优性能。实验结果表明,QAM 可以作为通用插件显著提高基于记忆的方法的性能,QDMN 在视频目标分割任务中具有广阔的应用前景。原创 2025-07-22 13:17:53 · 47 阅读 · 0 评论 -
53、动态密度感知的主动域适应方法
本文提出了一种名为D2ADA的动态密度感知主动域适应方法,旨在解决语义分割中的域适应问题。该方法结合了密度感知和不确定性选择策略,并通过动态调度策略提高标注效率。实验结果表明,D2ADA在多个任务和比较对象中表现出色,尤其在标注预算有限的情况下取得了显著的性能优势。文章还分析了该方法的优势、局限性以及未来可能的改进方向,并探讨了其在自动驾驶、医学图像分析等领域的应用前景。原创 2025-07-21 11:17:49 · 31 阅读 · 0 评论 -
52、D2ADA:用于语义分割的动态密度感知主动域适应
本文提出了一种动态密度感知主动域适应(D2ADA)框架,用于语义分割任务。通过选择目标域中概率密度高但源域中概率密度低的样本进行标注,D2ADA以最小的标注成本缩小了源域和目标域之间的差距。同时,设计了动态调度策略,根据不同阶段域探索和模型不确定性的特点调整标注预算,充分发挥两种策略的优势。实验表明,D2ADA在GTA5 → Cityscapes和SYNTHIA → Cityscapes两个基准测试上表现优异,使用不到5%的目标域标注即可达到与全监督学习相当的性能。原创 2025-07-20 13:13:39 · 40 阅读 · 0 评论 -
51、单三元图视频抠图技术解析
本文详细介绍了一种基于深度学习的视频抠图框架 OTVM,该框架仅需单个用户注释的三元图即可实现高质量的 alpha 遮罩预测。通过联合建模三元图传播与 alpha 预测、分阶段训练策略以及有效的数据增强方法,OTVM 在多个基准数据集上显著优于现有技术,尤其在单三元图场景下表现出色。文章还分析了模型的各个组件效果,并展示了其在视频编辑、虚拟直播和监控视频分析等实际场景中的应用潜力。原创 2025-07-19 10:25:55 · 47 阅读 · 0 评论 -
50、单三元图视频抠图技术:OTVM网络的创新与实践
本文介绍了一种创新的单三元图视频抠图网络OTVM,通过联合建模三元图传播和透明度预测,结合细化模块与端到端训练策略,解决了现有视频抠图方法的局限性。OTVM能够利用单个用户标注的三元图实现高质量且时间一致性的视频抠图,在视频编辑、直播、虚拟现实等领域具有广泛的应用前景。原创 2025-07-18 15:52:48 · 37 阅读 · 0 评论 -
49、多尺度和跨尺度对比学习:提升语义分割性能的有效方法
本文提出了一种多尺度和跨尺度对比学习方法,用于提升语义分割模型的性能。通过在多个特征尺度和跨尺度上引入对比损失,结合监督学习策略,该方法在多个具有挑战性的数据集(如ADE20K、Cityscapes、Pascal-Context和CaDIS)上显著提高了平均交并比(mIoU)等性能指标。实验表明,该方法适用于多种CNN和Transformer架构(如HRNet、OCRNet和UPerNet),并且对罕见类别的分割效果有显著提升,具有广泛的应用前景。原创 2025-07-17 14:50:02 · 64 阅读 · 0 评论 -
48、语义分割的多尺度和跨尺度对比学习
本文提出了一种用于语义分割的多尺度和跨尺度对比学习方法,通过在多个模型层应用对比学习,直接监督早期卷积/注意力层的特征空间,使模型能够捕捉更复杂的关系。同时,提出了一种无超参数的批量级锚点采样过程,并引入了多尺度对比损失和跨尺度对比损失,以提高局部与全局特征之间的一致性。实验结果表明,该方法在多个数据集和模型上均显著提升了性能,特别是在稀有类别的分割任务中表现出色。原创 2025-07-16 11:17:32 · 56 阅读 · 0 评论 -
47、基于简单图元的草图抽象方法
本文探讨了几种草图抽象方法,包括基于选择的抽象(如DSA和GDSA)和基于形状的抽象(如SW和PMN),并重点分析了Primitive-Matching Network(PMN)的性能和优势。实验结果表明,基于形状的抽象方法在草图分类和基于草图的图像检索任务中表现更优,尤其在低预算情况下效果显著。PMN通过将笔触映射到简单图元并预测仿射变换实现高效的草图抽象,具有较高的灵活性和精确性。此外,文章还讨论了草图抽象方法的应用场景、未来研究方向以及PMN在处理复杂笔触时的局限性。原创 2025-07-15 15:24:36 · 44 阅读 · 0 评论 -
46、通过简单图元抽象草图
本文提出了一种基于图元的草图抽象方法——图元匹配网络(PMN),旨在通过预定义的简单图元(如圆形、线条等)生成可解释的草图表示。PMN 通过自监督深度学习模型,将草图的每个笔画映射到最相似的图元,并预测仿射变换以对齐图元与原始笔画。实验表明,PMN 在有限通信预算下,能够有效保留草图的关键信息,在草图分类和基于草图的细粒度图像检索任务中表现优异。此外,PMN 提供了简洁且可解释的草图表示,便于分析和比较不同草图。原创 2025-07-14 16:47:33 · 28 阅读 · 0 评论
分享