
CV-目标检测专栏
文章平均质量分 91
关于图像处理的目标检测专栏
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
码科智能 | 边缘设备也能跑SOTA实时物体检测模型?DINOv2预训练+DETR端到端的黄金组合,第一个超60AP的模型!
今天Roboflow就开源了SOTA 实时物体检测模型RF-DETR,其在现实世界数据集上的表现优于所有现有的物体检测模型,并且是第一个在 COCO 数据集上进行基准测试时达到 60+ 平均精度的实时模型。原创 2025-03-30 03:00:00 · 603 阅读 · 0 评论 -
小白玩转Python | 简化目标检测:使用 Grounding DINO 对自定义数据集进行标注
对于像 YOLO 这样的模型,使用带有标注图像数据集进行训练有时可能会有点令人望而却步。如果你需要处理自定义数据,并围绕其定义标注,那可能会有些耗时。但我找到了完美的解决方案——Grounding DINO!这种方法的突破之处在于,它将基于 Transformer 的检测器 DINO 与基础预训练相结合,可以从有限的人类输入中检测到任意对象。这篇简易指南向你解释了如何有效地将你的自定义数据集格式化为 PASCAL VOC 格式,并且让你惊讶地发现,在你的目标检测项目中,这些数据集可以轻松而有效地使用。原创 2025-03-27 22:17:20 · 619 阅读 · 0 评论 -
量子位 | 目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞
目标检测领域,迎来了新进展——Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。这一进展获得AI大佬沈向洋转发,他一般都是一年一转的节奏。此次发布主要有两个版本:Pro和Edge。Pro版更强,Edge版更快。它仍然保留了上一个版本。原创 2025-03-26 17:29:45 · 630 阅读 · 0 评论 -
集智书童 | DM-YOLO 小目标检测新SOTA | 轻量化+动态上采样,参数减38%、精度升4.1%,边缘设备实时部署
小目标检测尤其困难,因为它们像素计数低、背景复杂、拍摄角度多变,这使得模型难以提取有效特征。虽然一些大规模模型提供了高精度,但它们的长时间推理时间使得它们不适合在边缘设备上进行实时部署。另一方面,为低计算能力设计的模型通常检测精度较差。本文专注于小目标检测,并探索在低计算约束下的目标检测方法。基于YOLOv8模型,作者提出了一种新的网络架构,称为FDM-YOLO。作者的研究包括以下关键贡献:作者通过分析YOLOv8检测Head的输出引入了FDM-YOLO。作者添加了一个高分辨率层并移除了大目标检测层,以更好原创 2025-03-18 21:21:53 · 1231 阅读 · 0 评论 -
江大白 | YOLOv12论文详解:以注意力机制为核心的实时目标检测算法(附论文和源码)
YOLOv12 是 YOLO 系列中的一个重大突破,首次摆脱了传统卷积神经网络的约束,将注意力机制直接融入目标检测框架,创新性的使用区域注意力、R-ELAN 和 FlashAttention,在提高检测精度(mAP)的同时保持实时推理性能。原创 2025-03-06 09:42:36 · 1104 阅读 · 0 评论 -
计算机视觉之家 | 如何使用 YOLOv12 实现目标检测
在研究了YOLOv8、YOLOv9、YOLOv10甚至YOLOv11之后,我们很高兴地推出 YOLO 系列的最新版本:YOLOv12!这个新版本采用了以注意力为中心的架构,改变了实时对象检测的方式。它还为准确性和效率树立了新标准。原创 2025-03-02 02:00:00 · 875 阅读 · 0 评论 -
集智书童 | YOLOv12 正式开源 | 中科院大学携 LLM Trick 让YOLO家族改头换面后依然是效率之王
提升YOLO框架的网络架构一直至关重要,尽管注意力机制在建模能力方面已被证明具有优越性,但长期以来一直专注于基于CNN的改进。这是因为基于注意力的模型无法与基于CNN的模型的速度相匹配。本文提出了一种以注意力为中心的YOLO框架,即YOLOv12,该框架在匹配先前基于CNN的模型速度的同时,利用了注意力机制的性能优势。原创 2025-02-20 12:07:23 · 1189 阅读 · 0 评论 -
OpenCV与AI深度学习 | 使用 MoveNet Lightning 和 OpenCV 实现实时姿势检测
在本文中,我们将探讨如何使用 TensorFlow Lite 的 MoveNet Lightning 模型和 OpenCV 构建实时姿势检测系统。这个项目使我们能够使用网络摄像头检测身体关节并动态地可视化运动。原创 2025-02-13 17:50:43 · 394 阅读 · 0 评论 -
计算机视觉研究院 | YOLO-S:小目标检测的轻量级、精确的类YOLO网络
研究者提出了YOLO-S,一个简单、快速、高效的网络。它利用了一个小的特征提取器,以及通过旁路和级联的跳过连接,以及一个重塑直通层来促进跨网络的特征重用,并将低级位置信息与更有意义的高级信息相结合。原创 2025-02-06 01:30:00 · 2120 阅读 · 0 评论 -
OpenCV与AI深度学习 | 初学者指南 -- 什么是迁移学习?
假设您有一个想要用计算机视觉解决的问题,但可用于建立新模型的图像却很少。您该怎么办?您可以等待收集更多数据,但如果您想捕捉的特征很难找到(例如,野生珍稀动物、产品缺陷),这可能是站不住脚的。原创 2025-01-24 21:00:15 · 1090 阅读 · 0 评论 -
集智书童 | CCi-YOLOv8n,突破检测极限,效率与精度双飞跃 !
城市和森林区域发生的火灾对安全构成严重威胁,凸显了更有效检测技术的必要性。为解决这些挑战,作者提出了一种增强的YOLOv8模型——CGi-YOLOv8n,该模型针对检测小火灾和烟雾进行了定向改进。原创 2025-01-21 17:55:04 · 815 阅读 · 0 评论 -
OpenCV与AI深度学习 | 使用Python和OpenCV实现火焰检测(附源码)
如题原创 2025-01-16 17:49:45 · 934 阅读 · 0 评论 -
OpenCV与AI深度学习 | 干货 | 深度学习模型训练和部署的基本步骤
训练深度学习模型的过程需要管理许多不同的步骤和组件。从数据准备到模型评估,每个步骤对于确保模型的成功都至关重要。原创 2025-01-09 17:57:42 · 1422 阅读 · 0 评论 -
集智书童 | 清华大学/NVIDIA/斯坦福等在没有3D数据的情况下训练一个开放词汇的单目3D物体检测模型 !
作者提出了一种新的开放式无词汇单目3D目标检测框架,称为OVM3D-Det,该框架仅使用RGB图像训练检测器,使其既具有成本效益又具有可扩展性,可以访问公开的数据。与传统方法不同,OVM3D-Det不需要高精度的激光雷达或3D传感器数据作为输入或生成3D边界框。原创 2025-01-06 17:41:03 · 1140 阅读 · 0 评论 -
机器学习AI算法工程 | YOLO-World开集目标检测,可直接上手
关于Demo:尽管YOLO-World官方给出了在线试用的Demo:https://huggingface.co/spaces/stevengrove/YOLO-World ,但还是不如在自己电脑上离线运行一遍来得直接。恰好,近期Ultralytics(YOLOv8)也新增了对YOLO-World的支持,我们不如直接体验一把。原创 2025-01-02 17:22:55 · 598 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于YOLOv8实现高级目标检测和区域计数
物体检测是计算机视觉的基石。这需要识别和精确定位图像或视频中的物体。在此基础上,使用 Ultralytics YOLOv8 进行基于区域的物体计数可通过量化指定区域中的物体来增强物体检测。此类进步具有变革性的应用,从准确计算城市人行横道上的行人到通过计算货架上的产品来完善库存管理。原创 2025-01-01 22:11:40 · 447 阅读 · 0 评论 -
极市平台 | 行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024
研究人员对基于Transformer的Re-ID研究进行了全面回顾和深入分析,将现有工作分类为图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景,提出了Transformer基线UntransReID,设计动物Re-ID的标准化基准测试,为未来Re-ID研究提供新手册。原创 2024-12-31 17:00:29 · 1142 阅读 · 0 评论 -
OpenCV与AI深度学习 | 一文带你读懂YOLOv1~YOLOv11(建议收藏!)
YOLO (You Only Look Once) 是一系列实时对象检测机器学习算法。对象检测是一项计算机视觉任务,它使用神经网络对图像中的对象进行定位和分类。这项任务的应用范围很广,从医学成像到自动驾驶汽车。多种机器学习算法用于对象检测,其中一种是卷积神经网络 (CNN)。原创 2024-12-31 16:53:04 · 1069 阅读 · 0 评论 -
菜鸟学Python | Python 数据分析核心库大全!
今天我们来聊点干货:Python 数据分析核心库大全。今天就是是帮大家整理出在数据分析工作中不可或缺的那些 Python 库。不管你是刚入门的数据分析小白,还是已经在分析路上“卷”了好几年,这些库总有你能用得上的宝贝,(建议看到最后)!原创 2024-12-29 07:00:00 · 1302 阅读 · 0 评论 -
集智书童 | MITA-YOLO: 一种改进的间接视觉 YOLOv8方法用于目标检测,很酷!
火势可能导致文化遗产建筑遭受严重破坏,因此及时的火警检测至关重要。传统的密集布线和钻孔可能对这些结构造成损害,因此减少摄像头的数量以最小化这种影响具有挑战性。此外,由于噪声敏感性和火灾高发区的管理者专业知识的保护,避免误报至关重要。为了满足这些需求,作者提出了一种基于间接视觉的火警检测方法,称为Mirror Target YOLO(MITA-YOLO)。原创 2024-12-25 15:25:48 · 846 阅读 · 0 评论 -
极市平台 | 超越YOLO11和D-FINE!DEIM:最强实时目标检测算法
本文介绍了一种改进的DETR目标检测框架DEIM,通过增加正样本数量和优化匹配质量的损失函数,显著加快了DETR模型的收敛速度,并在多个数据集上提升了性能,成为当前最优的实时目标检测方案。DEIM通过Dense O2O和MAL两项技术改进,解决了DETR在监督信号和匹配质量上的不足,使其在实时目标检测领域的表现超越了YOLO系列模型。原创 2024-12-24 10:53:19 · 2156 阅读 · 0 评论 -
江大白 | 基于AI,低空经济的无人机检测识别研究综述(建议收藏!)
近年来,无人机产业和应用发展迅速,深度学习在无人机检测与识别中的应用也取得了显著进展。本文对基于深度学习的无人机检测与识别技术进行了详细综述,包括视觉、音频、雷达和射频等多种方法。原创 2024-12-23 16:18:23 · 3311 阅读 · 0 评论 -
OpenCV与AI深度学习 | 水下检测+扩散模型:或成明年CVPR最大惊喜!
扩散模型:是一类生成模型,通过逐步向数据中添加噪声并训练模型逆向还原的方式,生成新的样本或重建原始数据。原创 2024-12-15 21:55:29 · 918 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于YoloV8的药丸/片剂类型识别
想象一下这个场景:你手里有一颗药丸,但你不太确定它是什么。也许标签已经磨损,或者您在药柜中发现它松动了。正确识别药物对您的安全和健康至关重要。这就是计算机视觉的用武之地。原创 2024-12-12 16:56:30 · 1055 阅读 · 0 评论 -
江大白 | 使用零样本目标检测识别物体(附代码)
这个代码示例展示了零样本目标检测在动态环境中识别物体的强大功能,比如冰箱内部。通过指定自定义标签,你可以将检测定制到广泛的应用中,而无需为每个特定任务重新训练模型。Hugging Face的transformers库和像Google的OWL-ViT这样的预训练模型,使得实施强大的目标检测变得非常简单,几乎不需要设置。原创 2024-12-11 18:48:13 · 1329 阅读 · 0 评论 -
江大白 | 为什么卷积现在不火了:CNN研究热度降温的深层原因分析!
卷积神经网络一度掀起了深度学习的革命,但纵观近年论文与研究热点不难发现CNN的相关研究正在减少。本文从深度学习技术的发展与应用角度深入剖析了这种变化的深层原因,希望对大家有所帮助。原创 2024-12-08 00:15:00 · 966 阅读 · 0 评论 -
arXiv每日学术速递 | DINO-X:一种用于开放世界目标检测和理解的统一视觉模型(建议收藏!)
DINO-X是一个统一的以对象为中心的视觉模型,支持各种开放世界感知和对象级理解任务,包括开放世界目标检测和分割、短语定位、视觉提示计数、姿态估计、免提示目标检测和识别、密集区域标题生成等。原创 2024-12-04 17:14:25 · 2126 阅读 · 0 评论 -
OpenCV与AI深度学习 | CIB-SE-YOLOv8: 优化的YOLOv8, 用于施工现场的安全设备实时检测 !
安全设备是确保建筑施工现场安全的关键组成部分,其中头盔尤为重要,能有效减少伤害和死亡。传统的监督和项目经理手动检查方法效率低下且劳动密集,往往无法预防因缺乏安全设备引发的事故。原创 2024-11-28 00:30:00 · 1231 阅读 · 0 评论 -
大数据与人工智能Lab | 【附论文】白话文本检测经典模型:SegLink
在自然场景中,例如灯箱广告牌、产品包装盒、商标等,要检测出其中的文字会面临着各种复杂的情况,例如角度倾斜、变形等情况,这时就需要使用基于深度学习的方法进行文字检测。在之前的文章中,介绍了基于卷积神经网络和循环神经网络的CTPN文本检测方法。原创 2024-11-27 16:40:57 · 744 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于深度学习的轮胎缺陷检测系统
全球轮胎制造商一直是质量保证等各个领域人工智能技术的早期采用者之一。人工智能的主要应用之一是使用基于深度学习的计算机视觉系统进行轮胎缺陷检测。由于轮胎制造过程中使用的原材料的性质,轮胎部件可能会受到金属或非金属杂质(例如钢丝、螺钉和塑料碎片)、气泡和重叠的污染。当轮胎有缺陷的车辆高速行驶时,这些缺陷会导致轮胎寿命缩短,甚至爆胎。原创 2024-11-27 16:36:02 · 1452 阅读 · 0 评论 -
江大白 | TaskCLIP:扩展大型视觉-语言模型以用于面向任务的目标检测(建议收藏!)
在本研究中,我们介绍了TaskCLIP,一个用于面向任务的目标检测的新颖框架。TaskCLIP以高效的方式利用了来自冻结CLIP模型的预训练知识和视觉语言关联,使其区别于之前的研究工作。与先前基于DETR的方法的比较分析表明,TaskCLIP在任务生成能力、准确性和训练效率方面均具有优势。原创 2024-11-24 02:30:00 · 721 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于YOLO11的车体部件检测与分割
YOLOv11 在 YOLOv10 的基础上进行了重大升级,在性能和适应性方面有了显著的提高。原创 2024-11-23 20:45:29 · 1165 阅读 · 0 评论 -
江大白 | 天大、华盛顿大学提出 YOSS 方法,视觉与听觉结合进行目标物体识别 !
在计算机视觉中,物体定位通常依赖于视觉信息,但音频在目标识别中的潜力尚未被充分利用。本文提出了YOSS方法,结合音频和视觉信息,通过对比学习将口语指令精准定位图像中的目标。实验表明,音频引导能显著提高定位精度,增强机器人系统的性能,为多模态AI系统和语音交互技术提供了新的发展方向!原创 2024-11-20 16:07:37 · 1253 阅读 · 0 评论 -
OpenMMLab | DocLayout-YOLO,让多样性文档布局检测更快、更准、更强
布局检测是文档解析领域的核心任务之一,目标是精准定位文档中不同类型的元素(正文、标题、表格、图片等)。尽管布局检测已经研究很多年,但现有的布局检测算法多关注在论文类型的文档,当面对多样性的文档(如教材、考题、研报等)时,其检测效果还是不及预期。原创 2024-11-19 17:36:32 · 1710 阅读 · 0 评论 -
OpenCV与AI深度学习 | 提升小水果检测效果:基于块技术的零样本RT-DETR与YOLO-WORLD
本文主要分成两个部分。首先,我们将深入研究RT-DETR和YOLO-WORLD模型。然后,我们将继续讨论基于补丁的技术,如SAHI和其他类似方法。最后,我将总结一下检测效果。原创 2024-11-19 09:48:44 · 900 阅读 · 0 评论 -
大数据与人工智能Lab | 【附论文】白话文本检测经典模型:CTPN
文字识别是AI的一项重要应用,例如将包装盒上的文字识别出来、将产品说明书上的文字识别出来、将大街上广告牌的文字识别出来等等,在现实生活中能给我们带来很大的便利,有着非常广泛的应用。原创 2024-11-15 17:41:09 · 1026 阅读 · 0 评论 -
Coggle数据科学 | Kaggle赛题解析:CZII 3D 物体检测
有大量的cryoET层析图尚未被充分挖掘。这些已发布的数据中,越来越多的部分以标准化格式存在于cryoET数据门户(cryoetdataportal.czscience.com)中。挖掘这些数据需要自动识别图像中的每个蛋白质分子。即使对于肉眼可识别的蛋白质,这个问题也尚未得到解决。一个通用的解决方案将揭示细胞的“暗物质”,并将促进成千上万的有助于人类健康的发现。原创 2024-11-14 14:47:45 · 1204 阅读 · 0 评论 -
集智书童 | YOLOv8架构的改进:POLO 模型在多类目标检测中的突破 !
基于无人机影像和目标检测技术的自动化野生动物调查已成为保护生物学中一种强大且日益流行的工具。大多数检测器需要使用带有标注边界框的训练图像,这种做法既费时又费钱,而且并不总是明确。为了减少这种做法带来的标注负担,作者开发了POLO,这是一种可以在仅使用点标签进行训练的多类目标检测模型。原创 2024-11-13 17:20:29 · 1301 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于YoloV11自定义数据集实现车辆事故检测(有源码,建议收藏!)
在智能交通系统领域,实时检测车辆事故的能力变得越来越重要。该项目利用先进的计算机视觉技术,采用最先进的对象检测模型 YOLOv11 来准确识别和分类车辆事故。主要目标是通过向紧急服务提供及时警报并实现更快的响应时间来提高道路安全。原创 2024-11-12 17:45:20 · 1326 阅读 · 0 评论 -
江大白 | 小目标物体检测方法:基于距离相似度的标签分配策略(附论文及源码)
在计算机视觉中,小目标检测由于信息不足而具有挑战性。对此,本文提出相似距离(SimD)策略,提升检测准确性。SimD自适应学习超参数,适应不同数据集和物体大小,在多个数据集上表现出色,特别是在AI-TOD数据集上显著提高精度,且无需设置超参数!原创 2024-11-07 17:34:21 · 1351 阅读 · 0 评论