
分类/识别/检测/分割
文章平均质量分 92
涵盖图像分类/识别、语义分割、实例分割、全景分割、目标检测等任务。
CVHub
专注多模态视觉语言AI全栈知识分享,提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案
展开
-
图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级,交互式视觉-文本提示功能全面上线!
随着人工智能技术的飞速发展,X-AnyLabeling 作为一款集多功能于一体的图像标注软件,致力于为用户提供更高效、更智能的标注解决方案。笔者深知,在实际应用中,用户面临着多样化的标注需求和复杂的数据处理挑战。因此,笔者将力争在有限的资源不断开发、探索和整合最新的算法模型,并优化工作流,以期帮助用户简化标定流程,提升标定效率。X-AnyLabeling 从项目启动至今,始终秉承开放和合作的精神,并欢迎来自各地的开发者和用户共同参与到项目的建设中来。原创 2024-12-19 22:03:23 · 1351 阅读 · 0 评论 -
上海AI实验室推出DocLayout-YOLO: 速度精度绝佳的文档布局分析模型
总的来说,DocLayout-YOLO 不仅在速度上与单模态方法YOLOv10相匹配,而且在准确性上超越了所有现有方法,包括单模态和多模态方法。这表明DocLayout-YOLO在文档布局分析领域具有重要的应用潜力。最后,值得称赞的是,这项工作不仅在技术上取得了突破,作者们还提供了代码、数据和模型的开源链接,为文档布局分析领域的研究和实践提供了宝贵的资源,这使得研究者和开发者能够进一步探索和应用DocLayout-YOLO。欢迎关注 CVHub!持续为您更新高质量的AI文章解读!原创 2024-10-25 00:00:28 · 1903 阅读 · 0 评论 -
Ultrylytics 官宣: YOLO11 全新发布!
总的来说,本次更新的 YOLO11 模型是基于 YOLOv8 开发的,网络结构方面整体变化不大,采用 C3K2 替换掉了原先的 C2 和 C3 块,并新增了一个类似于自注意力的特征增强模块——C2PSA。检测头部分延续了 YOLOv8,因此后处理解析步骤基本相同。根据社区的反馈,精度方面喜忧参半,欢迎添加WX: cv_huber,备注YOLO11一同加入 YOLO 学习讨论小组分享你的观点和看法吧~原创 2024-09-30 17:06:12 · 1677 阅读 · 0 评论 -
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling 是一款基于AI推理引擎和丰富功能特性于一体的强大辅助标注工具,其专注于实际应用,致力于为图像数据工程师提供工业级的一站式解决方案,可自动快速进行各种复杂任务的标定。原创 2024-08-27 00:26:45 · 1820 阅读 · 1 评论 -
大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式
References如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。原创 2024-07-31 21:28:41 · 503 阅读 · 0 评论 -
大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式
References如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。原创 2024-06-20 23:40:28 · 1161 阅读 · 0 评论 -
YOLOv10 正式发布!原理、部署、应用一站式齐全
遗憾的是,无论是 anchor-based 的“框分配”策略还是 anchor-free 的“点分配”策略,其始终会面临一个 many-to-one 的窘境,即对于一个 GT 框来说,会存在多个正样本与之对应。YOLOv10 作为一款实时端到端目标检测模型,其通过创新的双标签分配策略和架构改进,在保持高速检测的同时显著提升了准确性和效率,提供了多个模型规模以适应不同应用场景,并通过支持ONNX和TensorRT等格式的导出,便于在多种平台上部署和推理,值得尝试。原创 2024-05-25 21:45:39 · 27588 阅读 · 4 评论 -
DECO:卷积结构的反击,纯卷积Query-Based检测器超越DETR
本文旨在研究是否能够构建一种基于查询的端到端目标检测框架,而不采用复杂的Transformer架构。提出了一种名为Detection ConvNet(DECO)的新型检测框架,包括主干网络和卷积编码器-解码器结构。通过精心设计DECO编码器和引入一种新颖的机制,使DECO解码器能够通过卷积层实现目标查询和图像特征之间的交互。在COCO基准上与先前检测器进行了比较,尽管简单,DECO在检测准确度和运行速度方面取得了竞争性表现。原创 2024-04-01 23:38:52 · 917 阅读 · 1 评论 -
CVPR 2024 | 一种新颖的基于生成式的 OVD 检测范式:GenerateU
总体而言,GenerateU通过其生成式的方法和端到端的训练策略,为对象检测领域提供了一种新的解决方案,尤其适用于在推理时缺乏精确类别知识的场景。代码已在GitHub上公开,大家可以进一步探索和应用。原创 2024-04-01 23:33:25 · 1320 阅读 · 0 评论 -
ICCV 2023 | EfficientViT: 面向边缘设备应用的SOTA语义分割模型,助力SAM高效推理
不同于先前的多尺度注意力机制模块,本文探索的关键点在于如何仅依赖对硬件友好的算子来实现同等的全局感受野和多尺度学习,这无疑就点名了。最终,该模型在性能和硬件效率之间取得了良好的平衡,为在边缘设备上部署语义分割应用提供了一种可行的解决方案。特别地,论文引入了一种轻量级多尺度注意力模块,该模块同时实现了全局感受野和多尺度学习,使用轻量级和硬件高效的操作,因此在边缘设备上相对于。全局注意力,将计算复杂度从二次降低到线性,同时保留了同等的特征提取能力,并能够很好的将全局感受野与多尺度学习结合起来。原创 2023-11-04 22:58:43 · 759 阅读 · 0 评论 -
基于 YOLOR 的统一多任务学习范式
本文从人类学习的角度分析了图像字幕生成任务所需的语义信息。研究人员分析了不同视觉任务之间的关联性,将多个任务结合在一起进行训练,最大化了所有任务之间的共享语义。此外,他们深入讨论了数据增强技术和优化器模式,以从语义的角度设计训练流程,并减少语义错误的影响。实验结果显示,相比其他多任务模型,本文所提模型更轻量化,并在所有任务上取得了出色的成绩。此外,在多任务联合学习架构下,通过共享语义和学习率,能够使图像字幕生成任务能够在不使用任何预训练模型的情况下达到不错的性能,同时具备良好的可扩展性。原创 2023-11-04 22:51:25 · 448 阅读 · 0 评论 -
高效涨点神器 | 台湾国立中央大学最新提出即插即用 SFPN: 显著提升卷积神经网络精度
本文介绍了一种名为 SFPN(Synthetic Fusion Pyramid Network)的新型神经网络架构,旨在改进目标检测性能,尤其是在处理不同尺寸对象时。SFPN通过引入合成层来创建更加连续的特征金字塔,从而减少特征损失,提高目标检测的鲁棒性。实验结果显示,SFPN在不同类型的骨干网络上都能显著提高性能,特别是在轻量级模型上。原创 2023-11-04 22:42:49 · 514 阅读 · 0 评论 -
打破遮挡和数据稀缺难题:MMSports 2023 分割竞赛冠军方案分享!
在这篇技术报告中,我们介绍了用于解决 ACM MMSports 2023 实例分割问题的关键方法和技术。为了解决分割任务中的遮挡问题,作者利用了性能优异的 HTC 架构,搭载特征提取能力较强的 CBSwin-Base 骨干网络,并引入了一种新颖的位置感知复制粘贴数据增强技术,可以随意应用于数据稀缺的分割应用。实验结果表明,本文方法在不需要额外数据或预训练的情况下,在测试集上实现了最先进的结果(以0.533的OM得分排名第一)。原创 2023-11-04 22:40:11 · 216 阅读 · 0 评论 -
【2023-2024年最新教程】yolov5_obb: 旋转目标检测从数据制作到终端部署全流程教学
旋转目标检测,从入门到起飞,一站式教程!原创 2023-11-04 12:55:24 · 12737 阅读 · 30 评论 -
字节跳动 PICO 实验室 —— XR/AR 最新研究进展
在不断发展的人工智能(AI)领域中,数据一直被视为最宝贵的资源之一。数据驱动的AI正以前所未有的方式塑造着未来,尤其在XR(扩展现实)领域,其中硬件和算法快速迭代。在这个领域,数据的效率、质量和可扩展性对于开发交互式AI算法至关重要。我们是交互数据实验室团队,负责构建以数据为中心的人工智能。在 XR(扩展现实)互动领域,高精度和强鲁棒性的3D互动是提供卓越用户体验的基础。这也意味着我们对支持算法模型的数据标签提出了更高的要求,包括更高的准确性和更好的泛化性能。在过去一年多的时间里,我们专注于解决数据相关的问原创 2023-09-09 10:42:36 · 555 阅读 · 0 评论 -
CFINet | 深度学习小目标检测
特别地,已知的问题是先验框与目标区域之间的重叠较低,导致了优化的样本池受限,而区分性信息的匮乏进一步加剧了识别问题。然后,通过在传统的检测头部引入了一个特征模仿(FI)分支,以一种模仿的方式促进困扰模型的尺寸受限实例的区域表示。,这是一个针对小目标检测的两阶段框架,基于由粗到细的流程和特征模仿学习。首先,作者引入了粗到细RPN(CRPN),通过动态锚点选择策略和级联回归来确保小物体的足够高质量的。或相似性学习来缩小小物体与大物体之间的表示差距,但这些方法忽略了高质量与大尺寸、小尺寸与低质量之间的区别。原创 2023-09-09 10:41:22 · 738 阅读 · 0 评论 -
ICCV 2023 | 北大&南洋理工联合提出开放词汇实例分割新方法 CGG: 性能俱佳同时具备时间和空间效率优势!
本文提出了一种简单有效的 Open Vocabulary Instance Segmentation 方法,除了性能上的优势之外,CGG 模型还具有时间和空间效率上的优势。欢迎对计算机视觉前沿技术感兴趣的小伙伴扫描屏幕下方二维码或者直接搜索微信号 cv_huber 添加小编好友,备注:学校/公司-研究方向-昵称,与更多小伙伴一起交流学习!原创 2023-08-27 11:33:45 · 493 阅读 · 0 评论 -
超越RTMPose | 登顶 COCO-WholeBody 榜首:清华联合IDEA提出全身关键点检测SOTA模型 DWPose
OpenPose:结合不同数据集对不同身体部位进行训练,以实现分离的关键点检测。MediaPipe:构建了一个感知 pipeline,特别适用于整体人体关键点检测。ZoomNet:首次提出了一种自顶向下的方法,使用层次结构的单一网络来解决不同身体部位的尺度变化问题。ZoomNAS:进一步探索了神经架构搜索框架,以同时搜索模型结构和不同子模块之间的连接,以提高准确性和效率。TCFormer:引入了逐步聚类和合并视觉特征,以在多个阶段中捕捉不同位置、大小和形状的关键点信息。RTMPose。原创 2023-08-27 11:23:04 · 985 阅读 · 0 评论 -
Residual Pattern Learning: 在不影响模型闭集表现的情况下分割异常物体
如果你有更多有趣的工作想分享给各位小伙伴,欢迎添加微信号:cv_huber 或扫描屏幕下方二维码与小编联系。原创 2023-08-27 11:16:47 · 168 阅读 · 0 评论 -
大连理工联合阿里达摩院发布HQTrack | 高精度视频多目标跟踪大模型
作者发现,对于相同的目标物体,HQ-SAM优化后的蒙版有时与VMOS预测的蒙版完全不同(IoU得分很低),这反而损害了分割性能。原始的DeAOT只在16倍比例的视觉和识别特征上进行传播操作,在这个尺度上,很多细节的目标线索会丢失,特别是对于小物体来说,16倍比例的特征不足以进行准确的视频目标分割。为了解决这个问题,同时保持SAM的原始提示设计、效率和零样本泛化性能,所以有研究学者就提出了HQ-SAM,它仅在预训练的SAM模型中引入了一些额外的参数,就能够达到更加精确的分割结果。推理过程如上图1流程所示。原创 2023-08-13 00:12:58 · 503 阅读 · 0 评论 -
ICCV 2023 | APE: 高效的 CLIP 图像分类适配算法,比 Tip-Adapter 参数少30倍
如果你有关于此篇论文感兴趣或者想一起交流探讨的点,欢迎添加小编微信 cv_huber 或扫描屏幕下方二维码与作者一起互动。原创 2023-08-13 00:08:23 · 846 阅读 · 0 评论 -
重新思考局部-全局上下文交互:SegNetr 在医学图像分割中的应用
SegNetr 通过引入 SegNetr 块和信息保留跳跃连接来改进 U 型网络的分割性能。其中,SegNetr 块通过局部-全局交互实现更好的特征表示,而信息保留跳跃连接则提供了更好的特征融合机制。这些方法使得 SegNetr 在减少计算复杂度的同时,能够获得与传统方法相媲美甚至更好的分割性能。如果有对深度学习在医学图像应用领域相关研究感兴趣的童鞋,非常欢迎扫描屏幕下方二维码或者直接搜索微信号 cv_huber 添加小编好友,备注:学校/公司-研究方向-昵称,与更多小伙伴一起交流学习!原创 2023-08-13 00:05:49 · 466 阅读 · 1 评论 -
ICCV 2023 | 超越 NanoDet, 腾讯联合比特币矿机制造商MicroBT发表 68.77k 的超轻量目标检测器!
本文提出了一个新颖的实例边界增强模块(IBE)和递归热重启训练策略(RecWR),以克服极度轻量级检测器的优化问题。实验结果表明,尽管提高性能可能会导致能耗增长,但利用ReLU等简单组件构建的能源导向检测器可以显著降低这种影响。在VOC,COCO和TJU-DHD数据集上,该方法在消耗最少能量的同时,实现了与当前最先进技术相媲美的性能。原创 2023-08-12 23:55:25 · 241 阅读 · 0 评论 -
KAUST & Meta AI 新作 | ZeroSeg: 无需语义标签和文本信息,开放词汇语义分割一把梭哈!
本文展示了一个不依赖人工标签,只通过从预训练模型中蒸馏知识就能进行高效语义分割的模型。总的来说,作者通过 ZeroSeg 证明了可以通过从预训练的通用视觉-语言模型中传递知识来有效地训练语义分割模型,同时希望这将为如何利用最近的基础模型研究成果来帮助像语义分割这样的像素级下游任务开辟一条新的途径。然而,我们可以容易看出一个弊端,因为该模型依赖于预训练的大型视觉语言模型,这些模型可能会在训练数据中存在的偏见。因此,如小心筛选训练数据等缓解措施对于确保我们模型的合规使用至关重要。原创 2023-08-12 23:43:42 · 272 阅读 · 0 评论 -
中科院一区顶刊 | BACL: 解决长尾目标检测的统一框架,显著提升 16.1 AP!
今天为大家介绍了BACL,一个针对长尾目标检测任务的统一框架。通过采用分而治之的策略,BACL 引入了 FCBL 来减轻前景类别间的不平等竞争,以及 FHM 来增强尾部类别的多样性。大量实验表明,BACL 能够在不同的骨干网络和架构下,为检测器提供更均衡和准确的分类分支。然而,BACL 是基于解耦训练流水线设计的,这限制了在分类器学习阶段对特征提取器的改进。未来的工作可能会弥补这一缺点,并整合更先进的指标和方法以增加样本差异,进一步改进。原创 2023-08-12 16:35:43 · 676 阅读 · 0 评论 -
ICCV 2023 | 超越 NanoDet, 腾讯联合MicroBT发表 68.77k 的超轻量目标检测器!
本文提出了一个新颖的实例边界增强模块(IBE)和递归热重启训练策略(RecWR),以克服极度轻量级检测器的优化问题。实验结果表明,尽管提高性能可能会导致能耗增长,但利用ReLU等简单组件构建的能源导向检测器可以显著降低这种影响。在VOC,COCO和TJU-DHD数据集上,该方法在消耗最少能量的同时,实现了与当前最先进技术相媲美的性能。原创 2023-07-22 23:39:12 · 1046 阅读 · 0 评论 -
仅 50KB!| 上海交大 MICCAI2023 最新提出超强 U-Net 变体,参数和计算量分别暴降 494 和 160 倍
本文主要提出了两个新颖的模块,GHPA 和 GAB,这两个模块大大降低了模型的复杂性,并且提高了模型的性能。同时,本文基于这两个模块构建了EGE-UNet,用于皮肤病变分割任务,实验结果表明,该方法达到了最先进的性能,同时显著降低了资源需求。原创 2023-07-22 23:36:07 · 949 阅读 · 3 评论 -
冠绝榜单 | 百度联合上海AI实验室提出 CityTrack: 刷新多目标跟踪纪录!
本文提出了一种针对城市规模的多摄像头多目标跟踪任务的新颖方法。所提出的方法包括车辆检测、ReID特征提取、单摄像头多目标跟踪和跨摄像头关联等关键组件,共同实现多摄像头多目标跟踪的结果。特别地,作者提出了两个关键创新点来改善跟踪性能:基于位置感知跟踪方法考虑了目标的空间上下文,基于边界框的匹配方法在跨摄像头关联过程中进行了细粒度的边界框级特征比较,提高了匹配的准确性。最后,所提方法在 CityFlowV2 数据集的公共测试集上评估了我们方法的性能。原创 2023-07-22 23:12:24 · 434 阅读 · 0 评论 -
即插即用系列!| MedAugment: 用于图像分类和分割的自动数据增强插件(附Pytorch源码)
MedAugment 的原理其实很简单,其框架实现如上图1所示。在该方法中,作者设计了两个增强空间 Ap 和 As,分别包含六个和八个数据增强操作。这样我们便有14种数据增强操作(可根据自己的数据集特点自由发挥)。为了更好地适应医学图像分析领域,这里还开发了一种新颖的操作采样策略。MedAugment 由 N 个增强分支和一个单独的分支组成(用于保留原始图像信息)。每个增强分支由顺序执行的 M = {2, 3}个数据增强操作组成。通过调整一个超参数,即增强级别l5l = 5l5。原创 2023-07-09 17:57:24 · 1250 阅读 · 0 评论 -
MICCAI 2023 | 视频息肉检测算法 YONA: 速度与精度的完美结合!
本文提出了一种名为 YONA 的新框架,用于准确和快速检测结肠镜视频中的息肉。该框架通过引入前景和背景对齐模块来处理快速运动情况下的特征,同时引入跨帧对比学习模块来增强模型对息肉和肠壁的区分能力。实验证明,YONA 在三个大规模公开视频息肉检测数据集上取得了最先进的性能。原创 2023-06-18 13:42:34 · 716 阅读 · 0 评论 -
CVPR 2023 | InternImage: 65.4 mAP,刷新 COCO 目标检测榜单记录!
研究人员提出了 InternImage,这是一种新的基于 CNN的大规模基础模型,可以为图像分类、对象检测和语义分割等多功能视觉任务提供强大的表示。研究者调整灵活的DCNv2算子以满足基础模型的需求,并以核心算子为核心开发了一系列的block、stacking和scaling规则。目标检测和语义分割基准的大量实验验证了InternImage可以获得与经过大量数据训练的精心设计的大规模视觉转换器相当或更好的性能,这表明CNN也是大规模视觉基础模型研究的一个相当大的选择。原创 2023-06-18 13:31:27 · 936 阅读 · 0 评论 -
IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用
本研究提出了一种名为CTO的新型网络架构,用于医学图像分割。与先进的医学图像分割架构相比,CTO 在识别准确性和计算效率之间取得了更好的平衡。本文的贡献在于利用中间特征图合成高质量的边界监督掩模,而无需额外信息。通过在六个公开数据集上进行的实验,CTO 在性能上超越了最先进的方法,并验证了其各个组件的有效性。原创 2023-06-05 00:18:38 · 552 阅读 · 0 评论 -
南大王利民团队新作 | MixFormerV2: 首个基于Transformer并在CPU设备实时运行的目标跟踪器!
本文提出了一种创新的跟踪框架,通过使用网络和简化的头部结构,实现了高效而准确的目标跟踪。通过模型简化和知识蒸馏等方法,MixFormerV2 在速度和性能方面取得了显著的改进,并在多个基准数据集上达到了最优性能。这一研究为未来的跟踪器设计和开发提供了有价值的参考。原创 2023-06-05 00:04:12 · 582 阅读 · 0 评论 -
经典回顾 | 达摩院细粒度分类方法 SoftTriple Loss 之 ICCV 高引论文深入解读
本文总结了关于深度度量学习中的局限性,并提出了一种名为的解决方案。作者指出,从小批量数据中采样三元组可能导致对整个数据集覆盖不足,从而降低深度度量学习模型的性能。为了解决这个问题,作者提出用多个中心来表示每个类别,并使用原始示例与类别之间的相似性定义了三元组,通过在模型的最后一个全连接层中编码这些中心。通过将纳入用于分类的标准SGD训练流程中,最终消除了采样阶段并直接学习嵌入向量。总的来说,SoftTriple在细粒度基准数据集上展现出一致的改进效果,证实了所提出的损失函数的有效性。原创 2023-05-20 13:41:48 · 459 阅读 · 0 评论 -
百度开源超强目标检测器 RT-DETR | Python/C++ 保姆级部署教程,从入门到精通
本文简单的为大家介绍了 RT-DETR 模型的一些基本概括,同时演示了如何基于 Python 和 C++ 在本地环境进行部署。完整的项目代码请访问 Github 地址,有任何疑问请加微信: cv_huber,备注“RTDETR”进入交流群讨论。即日起,CVHub正式开通知识星球本星球主打知识问答服务,包括但不仅限于算法原理项目实战职业规划科研思想等。本星球秉持高质量AI技术分享,涵盖:每日优质论文速递,优质论文解读与知识点总结等。本星球力邀各行业AI大佬,提供各行业经验分享。原创 2023-05-20 12:30:34 · 1518 阅读 · 2 评论 -
顶刊TIP 2023 | CFP:即插即用的多尺度融合模块,助力检测分割任务有效涨点!
本文介绍了一种基于全局显式集中特征规范的对象检测方法CFP。该方法首先提出了一种空间显式视觉中心方案,其中使用轻量级MLP来捕捉全局长程依赖,并使用并行可学习的视觉中心来捕捉输入图像的局部角区域。基于所提出的EVC,该文进一步提出了一种自上而下的特征金字塔的全局集中特征规范方法。与现有方法相比,CFP不仅具有捕捉全局长程依赖的能力,还可以高效地获得全方位的、具有判别力的特征表示。实验结果表明,CFP在MS-COCO数据集上具有优异的表现。原创 2023-05-20 12:25:36 · 3468 阅读 · 0 评论 -
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
本文提出了一种用于小样本分类的新型聚类-补丁元素连接网络CECNet。首先,作者设计了一个聚类-补丁元素连接(CEC)层,通过元素间的连接将查询特征的目标区域加强为聚类-补丁特征。然后,本文继而提出了三个有用的基于 CEC 的模块。其中,CECM 和 Self-CECM 用于生成更具区分度的特征表示,CECD 距离度量获得可靠的相似性图。广泛的实验结果证明所提方法的有效性,并在小样本分类基准测试中取得了最先进的成果。原创 2023-05-04 00:22:25 · 667 阅读 · 0 评论 -
视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
本文将通用分割模型SAM扩展到医学图像分割领域,并命名为MSA。通过采用参数有效的适应性技术,一种成本效益的微调技术,我们在19个医学图像分割任务中实现了显著的改进,并在5种不同的图像模态下取得了SOTA性能。这些结果证明了我们的适应性方法对于医学图像的适应性是有效的,同时也表明了将通用的分割模型用于医学应用的潜力。我们希望本文可以成为推进通用医学图像分割的起点,并激发新的微调技术的发展。原创 2023-05-04 00:03:55 · 1182 阅读 · 0 评论 -
CVPR‘2023 | PIDNet: 基于注意力机制引导的实时语义分割网络架构,完美解决空间细节、上下文和边界信息
本文提出了一种新颖的用于实时语义分割的三分支网络架构PIDNet。该模型的目标是实现对图像的语义分割和边界检测。其中,语义分割需要解析图像中的细节信息,而边界检测需要高频语义信息。为了解决这个问题,模型使用了比例分支(P)、积分分支(I)和微分分支(D)。其中,P 分支解析高分辨率特征图中的细节信息,I 分支聚合局部和全局的上下文信息以捕获远距离依赖,而 D 分支提取高频特征以预测边界区域。整个模型使用级联残差块作为主干网络,并使用不同深度和宽度的网络来生成 PIDNet 系列模型。原创 2023-05-03 23:57:11 · 1837 阅读 · 1 评论 -
中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)
本文介绍了一种全新的通用形变文档图像矫正框架,作者团队的方法突破了现有多数矫正方法的场景局限性,能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果,作者团队采用了一种多尺度编解码器结构,构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。此外,该团队还贡献了一个真实场景的测试基准和新的评估指标,以评估各类真实文档图像的矫正质量。通过在公开的测试基准和本工作提出的测试基准上进行大量实验,验证了该方法的有效性和鲁棒性。原创 2023-05-03 23:24:22 · 1061 阅读 · 0 评论