CV-目标检测专栏
文章平均质量分 91
关于图像处理的目标检测专栏
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
阿旭算法与机器学习 | 从YOLOv5到YOLO26:揭秘Ultralytics目标检测器的六年进化之路与未来挑战
本文综述了Ultralytics YOLO系列目标检测器的演进历程,重点分析了YOLOv5(2020)、YOLOv8(2023)、YOLO11(2024)和YOLO26(2025)四个里程碑版本。文章详细介绍了各版本的架构创新、性能基准和部署应用,并对比了非Ultralytics模型。YOLO系列通过单阶段检测设计平衡精度与速度,在计算机视觉领域具有重要影响力。最新版本YOLO26在CPU推理速度上较前代提升50%,并支持端到端推理。文章还探讨了当前挑战(如密集场景检测)和未来研究方向(混合架构、开放词汇检原创 2025-10-28 17:39:35 · 726 阅读 · 0 评论 -
Coggle数据科学 | Kaggle竞赛总结:RSNA 3D颅内动脉瘤检测
本文介绍了RSNA颅内动脉瘤检测竞赛的优胜方案。该竞赛旨在通过AI技术检测脑部影像中的动脉瘤,实现早期诊断。数据集包含多模态医学影像,标注了13个血管位置。前五名方案均采用两阶段策略:先定位血管区域,再进行分类。第一名方案通过血管分割和ROI提取,结合Transformer实现精确预测;第二名使用多任务3D nnU-Net;第三名利用2D投影和3D分类;第四名采用回归定位和2.5D分类;第五名通过2D目标检测和集成方法。这些方案展示了医学影像分析的有效方法,为动脉瘤早期检测提供了创新思路。原创 2025-10-26 17:07:43 · 789 阅读 · 0 评论 -
集智书童 | 多模态融合再进化 | SAMFusion以距离加权Query替代纯LiDAR方案,夜间远距+3.45AP
本文提出SAMFusion,一种基于Transformer的多模态传感器融合方法,用于恶劣天气下的3D目标检测。通过整合RGB、LiDAR、NIR门控相机和雷达数据,结合深度引导的跨模态投影和自适应混合机制,显著提升检测鲁棒性。实验表明,在浓雾和大雪场景中,行人检测性能分别提升17.2AP和15.62AP,尤其在远距离(50-80米)表现突出。局限性包括汽车类别标注偏差及计算复杂度较高的问题。该方法为自动驾驶在极端环境中的感知可靠性提供了新思路。原创 2025-09-23 10:12:39 · 717 阅读 · 0 评论 -
OpenCV与AI深度学习 | 下一代标注工具,机器预标注,人工精修!VisioFirm:开源、离线、强大模型加持,这款标注工具让你的人工成本降低90%!
VisioFirm是一款革命性的AI辅助图像标注工具,由TOELTLLC团队开发并开源。该工具深度融合多类SOTA模型(预训练检测器、零样本检测器、交互式分割模型),通过AI预标注大幅减少90%人工工作量。其创新性体现在:1)支持文本输入的零样本标注;2)利用WebGPU实现浏览器端加速;3)可离线运行保障数据安全。作为跨平台网页应用,VisioFirm提供智能过滤、便捷编辑和多格式导出功能,有效解决了传统标注效率低下的行业痛点,为计算机视觉项目提供了高效、灵活的标注解决方案。原创 2025-09-12 17:16:08 · 1168 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于机器视觉的充电器外观缺陷检测方案
通过高清工业相机和平面无影光源构建检测系统,可精准识别40-50mm白色塑胶件表面的划伤、烫伤等低对比度缺陷。该方案采用CS-Vison2.0专业算法模块,实现产品六个面的无死角检测,关键缺陷零漏检,检测效率显著优于人工。系统支持缺陷自动分类记录、数据统计分析及产线优化建议,硬件模块化设计可适配不同产品需求。该方案可直接对接现有产线,避免二次污染,已成功提升多家厂商的质检智能化水平。原创 2025-09-04 17:44:05 · 355 阅读 · 0 评论 -
阿旭算法与机器学习 | 重磅突破!CountVid:视频中任意物体的自动计数!【附论文与源码】
牛津大学团队推出CountVid模型,突破视频开放词汇物体计数技术。该模型通过文本或图像输入,可准确统计复杂场景中的物体数量,解决遮挡和相似物体干扰问题。采用三级处理架构(逐帧检测、短时滤波、长时追踪)和时间窗口验证机制,误检率降低50%。在生态保护、材料科学等领域测试表现优异,极端拥挤场景准确率仍保持稳定。相关代码已开源,并发布包含370段视频的数据集,为视频分析提供新工具。原创 2025-09-03 17:24:36 · 630 阅读 · 0 评论 -
OpenCV与AI深度学习 | 计算机视觉实现物体计数的四大案例(步骤 + 代码)
本文介绍了计算机视觉在目标计数中的应用,包括基本概念、挑战和实际示例。通过计算机视觉技术,可以自动识别和统计图像或视频中的目标数量,如车辆、人、动物等。文章详细讲解了图像和视频中的目标计数方法,并提供了四个示例代码:图像中的目标计数、视频中的目标计数、区域内目标计数和实时摄像机中的目标计数。这些技术可应用于农业、制造业、医疗保健等领域,帮助自动化计数任务,提高效率。原创 2025-09-02 17:39:52 · 1392 阅读 · 0 评论 -
集智书童 | 即插即用黑科技!DyCAF-Net无缝替换PANet Neck,Furniture数据集性能提升5.79%
DyCAF-Net:动态类别感知融合网络显著提升目标检测性能 本研究提出了一种创新检测框架DyCAF-Net,通过三个关键创新解决了传统目标检测技术的局限性:1)采用隐式平衡的Neck结构替代静态多尺度融合规则,实现内存高效的特征细化;2)引入双重动态注意力机制,利用输入和类相关线索自适应校准特征;3)通过类别感知特征自适应优先考虑稀有类别的判别区域。在13个基准测试中,该方法显著提升了检测性能,特别是在AxialMRI、MaskWearing和Furniture数据集上分别实现了9.91%、3.38%和5原创 2025-08-27 17:34:32 · 1064 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | 粘连物体分割与计数应用(二)--基于距离变换+分水岭算法 Halcon/OpenCV实现比较
本文介绍了基于距离变换和分水岭算法的粘连物体分割与计数方法,对比了Halcon和OpenCV的实现效果。该方法适用于粘连不严重的物体分割,通过阈值处理、距离变换、分水岭算法等步骤实现。实验表明,Halcon实现更简单稳定,而OpenCV需要更多预处理步骤且对图像质量要求较高。文章以糖豆和硬币为例展示了两种实现效果,指出当严重粘连时可能需要改用形态学+连通域方法。最后强调实际应用中需根据具体情况选择合适方法,并提供了完整的代码实现供参考学习。原创 2025-08-10 16:06:41 · 1023 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | 粘连物体分割与计数应用(一)--基于形态学+连通域处理 Halcon/OpenCV实现比较
本文对比了Halcon和OpenCV在粘连物体分割与计数中的实现方法。通过形态学处理(腐蚀/膨胀)和连通域分析,可有效分割轻微粘连物体。Halcon使用connection算子进行连通域分析,而OpenCV采用connectedComponentsWithStats函数。两种方法都适用于粘连区域远小于物体本身的情况,其中OpenCV通过随机着色和标记中心点实现可视化。文末提供了两个实例(糖豆和工件)的完整代码和效果对比,展示了两种工具在图像处理中的不同实现方式。原创 2025-08-10 16:03:31 · 714 阅读 · 0 评论 -
OpenCV与AI深度学习 | 18 个最佳计算机视觉图像标注工具(2025版)
本文介绍了2025年18款最佳计算机视觉图像标注工具,涵盖商业和开源解决方案。商业工具如Encord、Amazon SageMaker Ground Truth等提供AI辅助标注、协作功能和企业级安全性,适合大规模项目;开源工具如LabelMe、CVAT等则更具灵活性且免费。这些工具支持多种数据类型(图像、视频、DICOM等)和标注方式(边界框、多边形等),广泛应用于医疗、自动驾驶等领域。文章还对比了各工具的优缺点,并附用户评分,为开发者选择合适工具提供了参考。原创 2025-08-06 17:50:48 · 1644 阅读 · 0 评论 -
阿旭算法与机器学习 | 超越T-Rex!UMatcher一个面向边缘设备的轻量级现代模板匹配模型
UMatcher:面向边缘设备的轻量级模板匹配模型 摘要:UMatcher是一种新型框架,专为边缘设备设计,平衡了传统模板匹配的轻量性与现代深度学习的鲁棒性。该模型采用双分支对比学习架构,结合MobileOne骨干网络和U-Net特征融合,支持单次检测和跟踪。相比DINOv和T-REX等大型模型,UMatcher在保持可解释性的同时显著降低了计算需求,更适合嵌入式平台部署。其核心创新包括:支持多模板聚合、余弦相似度分类和动态跟踪调整。通过优化基础运算符使用和合成数据训练,UMatcher在移动设备上实现了高原创 2025-08-01 17:40:46 · 1181 阅读 · 0 评论 -
集智书童 | 专治无‘小目标失明‘ | SOD-YOLO创新ASF机制,小目标mAP飙升20.6%
摘要:本文提出SOD-YOLO模型,针对无人机图像中小目标检测的难题进行优化。通过引入自适应尺度融合(ASF)机制增强多尺度特征融合,添加P2小目标检测层保留空间细节,并采用Soft-NMS优化后处理,显著提升了检测性能。在VisDrone2019-DET数据集上,mAP50:95提升36.1%至0.351,mAP50提升20.6%至0.526。尽管计算复杂度有所增加(FLOPs从78.7G增至94.9G),但该模型在密集小目标场景中表现优异,成为无人机图像小目标检测的高效解决方案。原创 2025-07-29 17:50:43 · 952 阅读 · 0 评论 -
Coggle数据科学 | 科大讯飞AI大赛:X光安检图像识别挑战赛 赛季6 Baseline
摘要:科大讯飞AI大赛第六赛季推出X光安检图像识别挑战赛,要求参赛者基于真实X光安检图像构建目标检测模型,识别8类违禁物品。比赛采用mAP评估指标,提供VOC格式标注数据。Baseline方案建议使用YOLO模型,并提供了数据格式转换、模型训练和预测的完整代码流程,包括从VOC转YOLO格式、配置文件生成、模型训练到测试集预测的实现步骤。该赛题旨在提升安检场景下的目标检测准确率,推动AI技术在公共安全领域的应用。原创 2025-07-23 17:16:58 · 1070 阅读 · 0 评论 -
集智书童 | 跨场景泛化王者 | UniDet-D在未训练沙尘暴/雨雾混合条件下仍保持85%检测精度
1.频率选择机制依赖DCT计算开销• 虽然引入了Gumbel-Softmax和可学习开关来优化频率选择过程,但整体架构中的DCT操作可能带来额外计算负担,影响实时性。2.模型泛化能力受限于训练数据多样性• 尽管在未见过的天气条件下有较好表现,但其泛化能力仍依赖于训练时涵盖的退化模式广度。3.未明确评估极端复杂天气组合下的性能• 如暴雨+浓雾+低光叠加情况下的检测效果未被系统验证,未来可进一步探索更复杂的实际场景。UniDet-D的整体框架如图2(a)所示。原创 2025-07-19 20:17:22 · 1260 阅读 · 0 评论 -
集智书童 | YOLOv7插上时序的翅膀 | 轻量级时序融合策略实现MOT20Det数据集85.5% mAP
1.对于大模型提升有限• YOLOv7等高性能模型由于本身具有较强的单帧检测能力,多帧输入带来的增益较小(如mAP@0.5:0.95仅提升0.9%)。2.时间窗口选择敏感• 过大的时间窗口(如9帧)会引入噪声并降低精度,需根据具体任务调整帧数与采样间隔。3.未探索自适应帧选择机制• 当前采用固定帧数或固定间隔采样,未来可结合动态帧选择以进一步优化性能。4.融合方式仍较简单• 虽然早期融合效果优于分组卷积,但仍未引入更复杂的时序建模机制,可能限制了更深层次的时间信息挖掘。原创 2025-07-15 21:37:45 · 689 阅读 · 0 评论 -
阿旭算法与机器学习 | 【保姆级教程|YOLO11改进】【卷积篇】【6】GSConv混合标准卷积与深度可分离卷积,轻量化同时确保精度与速度提升
本文介绍了如何通过替换YOLO11网络中的常规卷积模块为更高效的GSConv模块来提升性能。GSConv结合标准卷积和深度可分离卷积,在保持精度的同时实现轻量化。文章详细展示了源码修改步骤,包括新建模块文件、修改网络解析函数和配置文件,并提供了替换主干网络卷积的具体示例。修改后的模型训练验证了新结构的有效性。该方法为YOLO11的轻量化改进提供了可行方案。原创 2025-07-14 16:42:30 · 891 阅读 · 0 评论 -
集智书童 | 小目标检测破局者 | MAFE R-CNN以多线索样本选择+类别感知特征增强显著超越Faster R-CNN
1.计算成本• 虽然MAFE R-CNN在性能上有显著提升,但其多阶段设计可能增加推理时间,影响实时性。2.超参数敏感性• MCsS中的最大正样本数量(k)和类别置信度权重(α)对性能有较大影响,需要精心调整。3.扩展性挑战• 方法在处理更复杂场景(如极端光照条件或更多类别)时的鲁棒性尚未完全验证。4.依赖高质量标注• 类别感知记忆模块的有效性依赖于高质量的真实标注数据,可能在标注不准确的情况下表现不佳。原创 2025-07-13 21:43:03 · 1024 阅读 · 0 评论 -
码科智能 | 大幅提升复杂场景精度?YOLOv13轻量化目标检测开源了,从局部感知到高阶语义关联!
将。原创 2025-07-10 21:33:11 · 668 阅读 · 0 评论 -
AI生成未来 | AI一眼认出95万物种,分辨雄雌老幼,2亿生物图像炼成“生命视觉”大模型
BIOCLIP 2 证明了“把正确的监督做大”同样能在专业领域复刻大模型的涌现属性——不仅准确,而且懂生物。项目主页:https://imageomics.github.io/bioclip-2/Demo网址:https://huggingface.co/spaces/imageomics/bioclip-2-demo论文网址:https://arxiv.org/abs/2505.23883THE END!原创 2025-07-10 21:32:39 · 961 阅读 · 0 评论 -
集智书童 | YOLO家族一路走来,YOLOv12为什么可以这么强?A²机制破局,登顶实时检测巅峰
1.硬件约束下的边缘部署挑战:尽管YOLOv12在高端GPU上表现出色,但其对内存和计算资源的需求限制了其在低功耗边缘设备(如NVIDIA Jetson Nano、树莓派)上的应用。2.训练复杂性增加:基于注意力的模块需要更多的FLOPs和内存带宽,导致训练成本高昂,尤其对于GPU资源有限的用户。3.数据集依赖性:YOLOv12的优越精度依赖于大规模数据集(如MS COCO和OpenImages),但在小规模或分布不平衡的数据集上表现可能受限。4.任务扩展的局限性。原创 2025-07-09 21:42:26 · 985 阅读 · 0 评论 -
OpenCV与AI深度学习 | 使用OpenCV实现球跟踪和落点预测
本文介绍了一种基于OpenCV的球体跟踪和落点预测系统。通过HSV颜色检测定位球体,使用cvzone.findContours()追踪运动轨迹,并采用多项式回归建模球的运动路径。系统能预测球体是否会落入设定的"篮筐"区域(x坐标330-430),并在视频中实时显示预测结果(绿色"Basket"或红色"NoBasket")。该项目整合了Python、OpenCV、Cvzone和NumPy等技术,实现了从球体检测到轨迹预测的完整流程。原创 2025-07-06 02:30:00 · 497 阅读 · 0 评论 -
江大白 | 支持任意分辨率的Vision Transformer,4032×4032超大分辨率,性能完爆DeiT等模型(附论文及源码)
本文提出了一种突破性的视觉Transformer架构ViTAR,解决了传统ViT在不同图像分辨率间适应性受限的问题。ViTAR通过两大核心技术实现了显著改进:自适应标记合并(ATM)模块动态调整分辨率,模糊位置编码(FPE)提供跨分辨率一致的位置感知。实验表明,ViTAR在1120x1120分辨率下达到83.3%的top-1准确率,4032x4032下仍保持80.4%,同时计算成本大幅降低。原创 2025-07-03 17:02:51 · 886 阅读 · 0 评论 -
集智书童 | 微小目标检测新标杆 | DPNet首创动态神经网络范式,微小目标检测效率跃升35%!
本文提出动态池化网络(DPNet),首创将动态神经网络思想应用于微小目标检测领域。针对传统方法存在的计算冗余和特征分布不一致问题,DPNet通过三大创新实现突破:1)引入可调节的下采样因子动态调整特征图分辨率;2)设计自适应归一化模块(ANM)解决多尺度训练中的特征分布差异;3)开发轻量级下采样因子预测器(DFP)实现输入感知的资源分配。原创 2025-07-02 16:03:44 · 1060 阅读 · 0 评论 -
江大白 | 2万字深度长文,拆解YOLOv1-YOLOv13的十年全面进化!(推荐收藏!)
YOLO目标检测算法十年发展与未来展望 YOLO(You Only Look Once)系列模型自2015年问世以来,彻底革新了实时目标检测领域。本文系统梳理了从YOLOv1到最新YOLOv13的十年演进历程,揭示了各版本在精度、速度和计算效率方面的突破性进展。文章深入分析了YOLO在自动驾驶、医疗影像、安防监控、工业质检和智慧农业等五大领域的变革性应用,并探讨了未来发展方向,包括多模态融合、边缘计算优化以及与AGI系统的整合。原创 2025-06-26 14:01:40 · 3074 阅读 · 0 评论 -
小白学视觉 | YOLOv13来了!清华大学提出基于超图增强的实时目标检测
YOLOv13通过引入自适应超图计算,有效地增强了模型对全局高阶视觉关系的建模能力。结合创新的FullPAD信息流范式和深度可分离卷积的轻量化设计,该模型在保持高效率的同时,实现了当前最优的检测性能。原创 2025-06-25 16:26:57 · 887 阅读 · 0 评论 -
集智书童 | YOLOv13震撼发布 | 超图高阶建模+轻量化模块,保证实时性的情况下,检测精度再创新高!
YOLOv13重磅升级:超图高阶建模+轻量化模块实现检测精度新突破 计算机视觉领域迎来重大突破,YOLOv13实时目标检测器正式发布。该模型通过创新性地引入超图高阶建模技术,显著提升了复杂场景下的检测性能。核心亮点包括: 提出HyperACE机制,采用自适应超图计算取代传统手工建模,实现高阶语义相关性精准捕捉; 首创FullPAD全流程聚合-分发范式,优化信息流传递效率; 基于深度可分离卷积设计轻量化模块,在保持精度的同时降低30%参数量。原创 2025-06-25 16:24:18 · 1414 阅读 · 0 评论 -
极市平台 | 大白话用Transformer做Object Detection
本文介绍了基于Transformer的目标检测方法DETR及其改进方向。DETR通过端到端检测机制和输入输出空间解耦等优势,实现了与传统CNN检测器不同的范式。文章分析了DETR收敛慢的原因在于object query与图像特征初始对齐困难,并总结了Deformable DETR、Anchor DETR等改进工作通过限制采样区域加速收敛的方法。最后探讨了query数量优化、位置编码改进等未来研究方向,为Transformer在目标检测领域的应用提供了深入见解。原创 2025-06-24 16:31:09 · 908 阅读 · 0 评论 -
OpenCV与AI深度学习 | OpenCV实现保险丝颜色识别(附源码)
本文介绍了使用OpenCV实现保险丝颜色识别的技术方案。首先将图像转换到HSV色彩空间,分离出饱和度(S)通道进行阈值处理(60-255),再通过轮廓查找定位每个保险丝区域。对每个区域提取色调(H)通道,根据不同颜色对应的H值范围(橙色10-30、红色0-10、蓝色125-162等)统计像素数量来判断颜色类型。代码实现了五种保险丝颜色(橙、红、蓝、黄、绿)的自动识别,并在识别结果上标注颜色名称和标记轮廓。该方法源自Halcon例程的OpenCV移植,适用于工业场景中的颜色分类应用。原创 2025-06-21 00:45:00 · 329 阅读 · 0 评论 -
江大白 | 目标检测YOLOv12算法来袭,更高性能、更快速度!(附论文及源码)
YOLOv12算法创新性地引入区域注意力模块和残差高效层聚合网络,显著提升目标检测性能与速度。实验表明,各规模模型均优于当前主流算法(YOLOv6/v8/v9/v10/v11)和RT-DETR系列,在保持低计算量的同时实现更高mAP值。例如,YOLOv12-S以21.4GFLOPs达到48.0mAP,推理速度仅2.61ms/图像。该研究通过优化注意力机制架构,突破传统CNN限制,为实时目标检测提供高效解决方案。论文及代码已开源,推动CV领域技术进步。原创 2025-06-20 17:40:52 · 992 阅读 · 0 评论 -
江大白 | 无人机小目标检测YOLOMG,复杂场景运动检测,多场景数据集SOTA(附论文及源码)
本文提出了一种用于检测极小型无人机的端到端框架。作者生成运动差异图以捕捉小物体的运动特征,并通过双模态自适应融合网络将其与RGB图像融合。为了评估YOLOMG的有效性,作者引入了ARD100数据集,该数据集具有复杂背景、突然的相机运动、低光照条件和微型无人机等特点。在ARD100和NPS-Drones数据集上的实验表明,YOLOMG能够有效地检测小型无人机,并超越了现有方法。原创 2025-05-29 15:23:18 · 1721 阅读 · 1 评论 -
OpenCV与AI深度学习 | 实战 | 用Google Gemini实现目标检测(完整代码+步骤)
多模态 LLM 的一个更被低估的功能是它们能够生成边界框来检测对象。我记得我们向一些朋友展示您可以使用 Moondream 和 Qwen VL 检测物体,他们非常震撼。原创 2025-05-28 17:09:26 · 993 阅读 · 0 评论 -
CVHub | 目标检测和语义分割该如何走下去?清华团队为视觉大一统模型指明了方向。
在计算机视觉领域从"任务特化"向"统一开放"的演进历程中,我们见证了从手工特征工程到深度学习范式,再从闭集假设到开放世界理解的多次技术跨越。原创 2025-05-26 13:44:25 · 1327 阅读 · 0 评论 -
菜鸟学Python | 如何用DeepSeek做海报
DeepSeek功能非常强大,主要是推理能力和理解能力很强,今天小编给大家分享一下如何用deepseek做海拔,这个其实对于设计行业或许新媒体行业是非常刚需的,现在有了deepseek 可以非常轻松的搞定,一起来看一下。原创 2025-05-24 01:30:00 · 1055 阅读 · 0 评论 -
集智书童 | YOLOv12-BoT-SORT-ReID 开源 | Strong-Baseline架构,无特征增强问鼎反无人机挑战赛
本文提出了一种基于热红外视频的多无人机跟踪任务强 Baseline 。通过将YOLOv12与BoT-SORT集成,Strong-Baseline在 Baseline 之上有了显著提升。在实验结果中讨论的训练和推理过程中的额外策略表明,Strong-Baseline有潜力在Track 3性能中排名前三。作者还确定了与初始试验相比影响性能的关键因素:模型大小贡献约0.003,跟踪缓冲区大小影响分数约0.0001,图像输入大小提供了最显著的影响,分数增加约0.1,ReID模块增加约0.01。虽然Strong-Ba原创 2025-05-24 01:30:00 · 2003 阅读 · 0 评论 -
集智书童 | HGO-YOLO 突破硬件限制 | 仅 4.6MB 参数实现 87.4% 精度+56 FPS 实时检测
准确且实时的目标检测对于异常行为检测至关重要,尤其是在硬件受限的场景中,平衡准确性和速度对于提升检测性能至关重要。本研究提出了一种名为HGO-YOLO的模型,该模型将HGNetv2架构集成到YOLOv8中。这种组合通过GhostConv简化模型复杂性的同时,扩大了感受野并捕捉了更广泛的特征。作者引入了一个轻量级的检测Head,OptiConvDetect,它通过参数共享有效地构建了检测Head。原创 2025-05-22 17:12:27 · 1039 阅读 · 0 评论 -
江大白 | 2万字长文,YOLOv1-YOLOv11的十年全面进化综述!(建议收藏)
在这篇综述中,探讨了从初代YOLOv1到最新的YOLOv11模型的发展历程。通过回顾这十年的进步,我们突出了每个版本的关键改进及其在公共安全、汽车技术、医疗保健、工业制造和零售五个重要应用领域的影响。本文概述了每次迭代在检测速度、准确性和计算效率方面的显著增强,同时也解决了早期版本所面临的特定挑战和限制。此外,我们识别了当前YOLO模型能力的不足,并提出了未来研究的潜在方向。我们预测,YOLO的发展将向多模态数据处理转变,利用大语言模型和自然语言处理的进步来增强目标检测系统。这种融合有望拓宽YOLO模型的实原创 2025-05-14 17:05:00 · 1731 阅读 · 0 评论 -
OpenCV与AI深度学习 | 使用 YOLOv10 实现姿态检测
姿态估计就是从给定的输入图像中识别出称为关键点的特殊坐标。如上图所示,人体关节、面部特征就是关键点。从技术上讲,人工智能算法必须从大量带注释的图像中学习这些关键点的物理表征,然后在新的未见过的图像上预测这些关键点。原创 2025-05-09 15:06:02 · 1428 阅读 · 0 评论 -
我爱计算机视觉 | 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门!附GitHub最全开源对比方法结果!
红外与可见光图像融合,正站在从理论研究走向实际应用的关键十字路口。本综述不仅系统梳理了当前主流方法与数据集,也首次从“数据-融合-任务”的完整链路出发,搭建起了一个统一的研究框架。我们希望这份工作,能为研究者提供参考,为工程实践者带来启发,也为未来的发展方向提供一些思路。欢迎关注本文的 GitHub 项目,共同完善红外与可见光融合技术的知识地图!原创 2025-04-20 00:15:00 · 1262 阅读 · 0 评论 -
集智书童 | DETR家族再添大将 | 清华&重大提出MI-DETR,并行多时间Query突破级联解码的瓶颈
基于对现有DETR-like模型中广泛采用的级联解码器架构特性的分析,本文提出了一种新的解码器架构。级联解码器架构限制了目标 Query 在级联方向上的更新,仅允许目标 Query 从图像特征中学习相对有限的信息。然而,自然场景中目标检测的挑战(例如,极小、严重遮挡和与背景混淆混合)要求目标检测模型充分利用图像特征,这促使作者提出了一种具有并行多时间 Query (MI)机制的新解码器架构。原创 2025-04-12 17:00:02 · 1317 阅读 · 3 评论
分享