- 博客(194)
- 收藏
- 关注
原创 还在手动训练Faster R-CNN?你可能走了一条最难的路
今天,我们不仅带你快速了解如何用 PyTorch 从零训练 Faster R-CNN,还要告诉你一个更快、更省钱的解决方案——Coovally平台,以及它最新推出的“RaaS结果担保式模型交付服务”。无论是缺陷检测、烟雾识别、车道线提取,还是行为分析、农业植保、智能巡检,RaaS 都能快速交付模型服务。就是你不需要管模型、平台、训练、测试这些复杂流程,只需要提交需求,我们来帮你做,结果交付,有效果担保。,只有想不到没有做不到,全程无需任何复杂操作,只需提交需求便可开始你的AI模型开发,。
2025-07-04 09:18:16
419
原创 RTMPose:重新定义多人姿态估计的“实时”标准!
传统的高精度方法如HRNet、ViTPose虽然准确,但耗时大、难以部署。实时多人姿态估计一直是计算机视觉领域的“性能炼金术”:要在精度、速度、部署成本之间找到最优解,并不容易。RTMPose-S 代表了当前姿态估计模型的“部署最优解”:既兼顾精度,又对设备要求极低,非常适合工业、移动端、嵌入式设备等应用。传统姿态估计一般使用热图(heatmap)回归来预测关键点位置,这种方式虽然直观,但在推理时计算量大、部署困难。而 RTMPose 从底层架构到输出方式都进行了重构与优化,真正做到了“为落地而生”:。
2025-07-04 09:11:38
317
原创 当AR遇上深度学习:实时超声肾脏分割与测量技术全解析
在第二阶段,检测到的区域被裁剪并传递给MedSAM,这是一个基于提示的变压器架构,专为医学影像中的零样本分割设计。然而,自动测量方法的误差范围仅为几毫米,与观察者间变异性相当,且允许医师在数秒内快速调整,从而释放时间和精力用于超声图像评估。在这种情况下(例如BMI>35),超声图像质量因声学衰减和反射增加而下降,这给基于超声的成像带来了固有的物理限制,无论算法性能如何。基于原始框架的成功,nnU-Net v2引入了新的残差编码器、改进的归一化策略,以及通过指纹提取自动适应数据集特征的增强训练管道。
2025-07-02 17:54:42
1015
原创 YOLOv13都来了,目标检测还卷得动吗?别急,还有这些新方向!
就在大家还在研究多模态和大模型融合时,YOLOv13 的发布再次把目标检测领域推上热搜,但目标检测,这个曾经被视为CV领域“基础中的基础”,如今也在被频繁问到:“还值得做吗?无需繁琐配置,一键选择模型即刻训练,彻底告别“找模型、配环境、改代码”的繁琐流程。,只有想不到没有做不到,全程无需任何复杂操作,只需提交需求便可开始你的AI模型开发,只有跳出传统,拥抱多模态、大模型、低资源、实际场景应用,目标检测才会焕发新生。如果你想快捷高效的开发出模型,但又因为硬件,时间等头痛时,Coovally的。
2025-07-02 17:43:54
1189
原创 用 YOLOv8 + DeepSORT 实现目标检测、追踪与速度估算
【导读】目标检测与追踪技术是计算机视觉领域最热门的应用之一,广泛应用于自动驾驶、交通监控、安全防护等场景。今天我们将带你一步步实现一个完整的项目,使用YOLOv8 + DeepSORT实现目标检测、追踪与速度估算。>>
2025-07-01 17:24:33
988
原创 YOLOv13 实战指南:优缺点、训练方法、注意事项全都有
不过别担心,没有它也能用,而且开启与否对结果的影响也没你想的那么严重。有人已经在GitHub提了issue,希望官方集成YOLOv13,但Ultralytics表示由于YOLOv13是第三方实现,而非官方的 Ultralytics 模型。尽管目前还属于Ultralytics外部的模型库,但YOLOv13的开发者非常活跃,不管是bug反馈、模型适配,还是使用建议,都能比较快得到回应。不少测试者也表示,官方的宣传确实不是吹牛,这次的性能提升是“实打实”的。虽然不是刚需,但如果你追求极致速度,就得准备折腾一下。
2025-07-01 17:08:08
843
原创 深度神经网络为什么这样判断?一文读懂 Grad-CAM 可视化原理与应用(含实操平台推荐)
尽管 CNN(卷积神经网络)在图像识别中表现卓越,但“黑盒”特性让人难以信服它的每一个预测结果,特别是在医学影像、自动驾驶等高风险领域。可视化效果示例:比如一个“猫狗分类”的任务,Grad-CAM 会告诉我们,模型是基于耳朵的形状?与早期需要修改模型结构的方法不同,Grad-CAM直接作用于预训练模型,简单、高效。它不仅提高了模型的可解释性,更增强了人们对深度学习模型在实际场景中使用的信心。为了演示Grad-CAM的机制,我们构造了一个简洁的卷积神经网络,主要包含两个卷积模块(A1、A2),后接全连接层。
2025-06-30 17:15:30
1016
原创 DETR、去噪与视觉Transformer目标检测的进化之路
今天,我们带你一文了解Vision Transformer在目标检测上的演进逻辑,特别是“去噪机制(DN)”如何深刻改变了 Transformer 检测器的训练路径。基于你熟悉的本地开发工具(如 VS Code, Cursor, WindTerm 等),即可实时编写、运行和调试你的模型代码,享受如同在本地开发一样的流畅体验,却能利用云端的澎湃算力加速训练与实验迭代。访问官网,开启你的零代码AI开发之旅!而“去噪机制”的提出,则像是一把钥匙,打开了训练稳定性的大门,也重塑了我们对查询机制的理解。
2025-06-27 17:27:39
980
原创 航拍图像中的“生命线”:基于YOLOv5的7类应急目标检测实践
训练曲线图显示YOLOv5模型在100个训练周期中的表现:训练损失(包括边界框损失、目标性损失和分类损失)持续下降,表明定位能力、目标识别和分类精度均有提升。精确率、召回率、mAP@0.5和mAP@0.5:0.95等性能指标均保持稳定提升,其中mAP@0.5:0.95通过多IoU阈值评估模型鲁棒性。拖车类别表现最优,获得80.2%精确率、71.4%召回率和83.2%的mAP@0.5值,表明具有显著特征的大尺寸目标更易检测。总体而言,YOLOv5凭借其速度、精度和效率的平衡,成为航拍应急目标检测的最佳选择。
2025-06-27 17:14:03
1130
原创 YOLOv13重磅发布!Coovally平台可一键调用,体验超图建模带来的检测性能飞跃
该模型在继承 YOLO 系列实时检测优点的基础上,引入了超图增强、高阶语义建模、轻量化结构重构等一系列新机制,在 MS COCO 和 Pascal VOC 等主流数据集上实现了全面领先,展现出更强的泛化能力与部署实用性。访问官网,开启你的零代码AI开发之旅!未来,如果你想做目标检测模型优化、端侧部署,或者需要一个“复杂场景也能应对”的强大检测模型,YOLOv13 一定是你绕不开的一环。,通过可学习的超边(Hyperedge)构建方式,让模型自动发掘这些“多对多”的语义关系,突破了“只能点对点”的限制。
2025-06-25 18:01:25
1345
原创 卷积神经网络(CNN):开启机器视觉的智能之眼
它突破了传统神经网络处理图像的瓶颈,赋予了机器高效识别物体、发现模式、理解场景的强大能力,本文将带您深入探索CNN的核心奥秘。基于你熟悉的本地开发工具(如 VS Code, Cursor, WindTerm 等),即可实时编写、运行和调试你的 CNN 模型代码,享受如同在本地开发一样的流畅体验,却能利用云端的澎湃算力加速训练与实验迭代。这是 CNN 中最常用的激活函数。通过对局部区域进行汇总(如取最大值或平均值),池化使学习到的特征对微小的平移、旋转和形变具有更强的鲁棒性,同时保留最重要的信息。
2025-06-25 13:48:39
732
原创 YOLOv12技术突破全解析:最新改进与前沿论文速览
在多类检测中,RF-DETR以0.8298的 mAP@50 再次领先,表明其在区分遮挡和非遮挡水果方面的有效性,而YOLOv12L则以 0.6622 高居 mAP@50:95 指标榜首,表明其在详细遮挡条件下的分类能力更胜一筹。对模型训练动态的分析表明,RF-DETR 的收敛速度很快,尤其是在单类场景中,不到10个epoch就达到了平稳状态,这凸显了基于transformer-based的架构对动态视觉数据的效率和适应性。最后,通过简单的通道压缩和重建大核卷积(RLKC)消除模型冗余,实现模型轻量化。
2025-06-25 13:35:36
1029
原创 数据集分享 | 智慧交通领域核心数据集精选
在智慧交通飞速发展的浪潮中,算法的实战能力是落地的关键。TuSimple、CULane、UA-DETRAC、CCPD等黄金数据集,以其严苛的场景设定和工业级的规模,为车道感知、车辆追踪、车牌识别等核心任务提供了坚实的验证基石。从极端天气下的车道线断裂、微小目标的精准识别,到动态场景的复杂追踪,这些数据集不断推动着算法的边界。
2025-06-19 17:14:21
684
原创 YOLOv8/v10/v11自动驾驶实测对比:揭秘v11遮挡车辆检测精度提升关键
本文分析 YOLO11 在车辆检测上的性能。相比前代(YOLOv8/v10),YOLO11 通过架构改进提升了速度、精度和在复杂环境(小目标、遮挡)下的鲁棒性。使用多车型数据集测试表明,其精度(mAP)、召回率等指标更优,同时保持实时推理速度。该模型在检测复杂形状车辆方面进步显著,对自动驾驶和交通监控有应用潜力。>>车辆检测是先进智能交通系统(ITS)开发的关键组成部分,该系统依赖于准确且实时的信息来优化交通流量、提升安全性和支持自动驾驶技术。
2025-06-19 17:04:02
744
原创 数据集分享 | 无人机视觉如何认知世界?多种数据集揭示核心难题
在 Coovally 的赋能下,研究者可跨越数据与工程鸿沟,直击小目标检测、动态视角跟踪、跨域泛化等核心问题,推动无人机从“看见”走向“认知”,重新定义天空的智能边界。UAVDT 与 VisDrone 作为全球公认的无人机视角双雄,以其大规模、多维度、高复杂度的特性,成为驱动目标检测与跟踪技术突破的核心引擎。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!视角动态: 无人机平移、旋转、俯冲带来目标形变、遮挡、运动模糊。
2025-06-18 17:30:55
782
原创 优化 YOLO 训练:深入研究预处理和数据增强
当你的检测模型在真实场景中漏检、误检或泛化失败时,问题可能不在算法本身,而是隐藏在数据预处理和增强的细节中。本文将拆解YOLO训练中最易被忽视的数据标准化核心步骤与增强策略的致命陷阱,用工业级实践告诉你:为什么同样的YOLOv8模型,别人的mAP比你高20%?在开始训练自定义 YOLO(You Only Look Once,只看一次)模型之前,对数据预处理和数据增强的基本理解至关重要。数据增强可以人为地扩展您的数据集,使模型更加稳健,并提高其在各种现实场景中的泛化能力。预处理不是可选项,而是强制标准。
2025-06-17 17:37:47
1055
原创 CVPR 2025 | 微米级光影CT精度!复旦&腾讯优图开源Real-IAD D³数据集
实验结果显示,D³M方法在图像级和像素级异常检测指标上均优于单模态和双模态方法,证明了多模态融合在工业异常检测中的重要性。本文介绍了复旦联合腾讯优图发布高精度多模态数据集Real-IAD D³,并基于此数据集提出了一种创新的多模态融合检测方法,数据集已被CVPR 2025收录,并开源。在深色电源接口表面,2D图像完全无法识别的划痕(左),在伪3D模态下如刀刻般清晰显现(中),而3D点云则精准量化了变形深度(右)。正如论文结尾的启示:在智能制造时代,毫米级的精度鸿沟,往往决定了万亿级产业的生死线。
2025-06-17 17:28:22
846
原创 数据集分享 | 电力检测数据集,助力AI守护电网安全
无论是自动识别配电房仪表读数、精准检测输电线路上的致命异物,还是实时监控设备绝缘状态、评估潜在故障风险,高质量的训练数据都是算法成功的核心前提。然而,电力场景复杂多样、专业性强,获取覆盖全面、标注精确的数据集往往耗时耗力。无论是提升巡检效率、保障设备安全、实现自动化抄表,还是预防外力破坏,它们都为开发鲁棒、精准的AI算法提供了坚实的基础。标签:foreign_object_afo (风筝线、塑料袋、鸟巢、气球等悬挂异物) - 专注于导线及绝缘子附近的危险漂浮物。覆盖高压线塔、变压器、断路器、配电柜等设备;
2025-06-16 16:58:30
1033
原创 云南电网实战:YOLOv8m改进模型攻克输电线路异物检测难题技术详解
在子图15(a)和16(a)中,模型提高了对垃圾目标的检测置信度。在子图15(b)和16(b)中,改进模型消除了对同一树枝不同部位的重复预测和鸟巢的误检,同时提高了树枝检测的置信度。图9展示了训练过程中mAP_0.5的对比,图10呈现了mAP_0.5:0.95的对比,图11展示了精确率的对比,图12显示了召回率的对比,图13则对比了分类损失(cls_loss)。图15展示了原始YOLOv8m模型的检测结果,其中(a)、(b)、(c)、(d)、(e)和(f)分别对应垃圾、树枝、鸟巢、风筝、鸟类和气球。
2025-06-16 16:51:44
1226
原创 实时物体检测,看YOLO-NAS、DETR、SAM 如何精准匹配你的场景?
在实时检测、复杂场景分析、零样本分割需求并存的2025年,YOLO-NAS、DETR、SAM三大架构各领风骚。本文深入剖析三者核心优势、典型短板与最佳适用场景,提供清晰的选型决策指南,并揭示未来混合架构协同互操作的趋势——助你精准匹配项目需求,避免选型陷阱。通过设计高效的混合编码器、提出IoU-Aware查询选择等创新,显著提升了推理速度,使其能够在实时场景(如视频分析)中部署,弥补了原始DETR的最大短板。YOLO-NAS、DETR、SAM——恰如视觉感知的三原色,共同交织出机器看懂世界的多彩未来。
2025-06-13 16:32:18
620
原创 数据集分享 | 蓝莓成熟度数据集
无论你是关注智慧果园管理,还是探索农业视觉识别算法的科研人员,亦或是想将AI技术用于农业生产提效降本的企业工程师,这个数据集都能为你的项目注入坚实的数据支持。今天为大家分享一个非常实用的蓝莓视觉数据集 —— 聚焦蓝莓不同成熟阶段的识别检测任务,可广泛应用于智能采摘、成熟度评估、供应链管理、农业机器人等多个领域,是智慧农业从业者与研究人员不可错过的好素材!涵盖蓝莓田间不同光照条件(晴天、阴天、逆光)与多种自然背景(枝叶遮挡、杂草背景、果实堆叠),反映真实田间工作环境中的采摘识别挑战。
2025-06-13 09:41:45
744
原创 突破微小目标检测瓶颈:智能无人机在蓝莓产量估算中的解决方案
【导读】本文提出了一种使用搭载计算机视觉的智能无人机估算蓝莓产量的方法。系统利用两个YOLO模型:一个检测灌木丛,另一个检测浆果。它们协同工作,智能控制无人机位置和角度,安全获取灌木近景图,实现精准的浆果计数和产量估算。实验展示了模型在裁剪图像上的良好效果,并讨论了部署时的采样策略、小目标(蓝莓)标注及模型评估的挑战。>>更多资讯可加入CV技术群获取了解哦~目录一、相关工作二、处理流程分层采样单株灌木检测灌木侧视图像采集三、数据集数据采集浆果数据集数据标注千款模型+海量数据,开箱即用!四、YOLO目标检测训
2025-06-12 16:55:56
1187
原创 数据集分享 | 火焰检测数据集
这个日常生活火焰烟雾数据集,是现代 AI 技术赋能公共安全与灾害预防的一个典型范例。它不仅为开发更智能、更灵敏的火灾预警算法提供了宝贵素材,也推动了计算机视觉技术在复杂真实场景下的落地应用。如果您正在研究智能安防、火灾预警、目标检测或异常监测相关课题。需要寻找一个贴近实际、标签清晰、场景丰富的视觉数据集来验证算法。对“用 AI 守护安全”这一使命充满热情。那么这个数据集绝对是您不可错过的选择!📍。
2025-06-12 09:59:03
722
原创 YOLO-FireAD:通过混合注意力与双池化融合实现高精度实时火灾检测
为了验证YOLO-FireAD的性能,对比实验将YOLO-FireAD与YOLOv8n、YOLOv9t、YOLOv10n、YOLO11n、YOLOv12n以及YOLOv8n的改进模型,并在 fire_detection 数据集上分析模型性能,通过 P、R、F1score、mAP50、mAP50-75、mAP50-95、参数数量、FLOPs 和模型大小等指标评估模型性能,随着迭代次数的增加,各曲线的变化率逐渐减小,大约经过40次迭代后,曲线开始趋于稳定,最终在约200次迭代后,曲线基本保持稳定。
2025-06-11 17:31:37
1524
原创 SLAM3R:基于单目视频的实时密集3D场景重建
值得注意的是,在没有任何优化程序的情况下,我们的方法达到了与 NICER-SLAM和DUSt3R等基于优化的方法相当的重建质量。与基于姿态优化的传统方法不同,SLAM3R 直接从每个窗口中的 RGB 图像回归三维点阵图,并逐步对齐和变形这些局部点阵图,以创建全局一致的场景重建--所有这一切都无需明确求解任何摄像机参数。值得注意的是,在窗口大小超过 11 个之前,我们方法的效率一直保持稳定,这证明了我们并行设计的有效性。表 5 中的结果表明,与其他方法相比,我们的完整方法实现了更高的配准精度和计算效率。
2025-06-11 09:53:54
1310
原创 无缝对接大疆算力平台:基于Coovally的无人机AI模型端到端优化方案
低空经济的爆发为无人机智能化带来前所未有的机遇,但高昂的开发成本和复杂的技术流程仍是规模化应用的拦路虎。模型训练这个核心环节,却以其高技术门槛——复杂的数据标注、精细的参数调优、繁琐的硬件适配——难住了众多用户,成为阻碍AI能力快速落地的最大瓶颈。摒弃了传统开发中耗时的环境配置、代码调试等步骤,为研究者和产业开发者提供极简高效的AI训练与优化体验,让您专注于业务需求,而非底层技术。从农田病虫害的实时识别、高压线路的毫米级缺陷检测,到空中物流包裹的智能追踪,每个垂直场景都需要量身定制的AI解决方案。
2025-06-10 17:41:15
2048
原创 突破异常数据瓶颈!AnomalyAny:一句话+一张图,零样本生成任意异常图像
【导读】在工业制造、食品质检、自动驾驶等场景中,异常检测(Anomaly Detection, AD)被广泛应用。但现实中的异常数据稀缺,导致训练高质量检测模型变得非常困难。>>更多资讯可加入CV技术群获取了解哦~本文将为你介绍一项来自EPFL、ETH Zurich和华中科技大学联合发布的新工作 —— Anomaly Anything (AnomalyAny),它不需要训练、不依赖异常数据,仅靠一张正常图像和一句文字描述,就能生成高质量的“假异常图像”,有效辅助模型训练,在多个数据集上大幅提升性能。目录一、
2025-06-10 17:04:42
1012
原创 数据集分享 | MOT17数据集、UAVDT数据集
是否有一套高质量、标注严谨的数据集,往往决定了模型能否在真实场景中跑得稳、识别准。无论是城市地面视角的 MOT17,还是高空多变量挑战的 UAVDT,都代表了多目标跟踪领域的重要研究基准。MOT17 是多目标行人跟踪任务的经典数据集,由 MOTChallenge 团队发布,广泛用于评估行人跟踪算法的性能。与 MOT17 聚焦地面行人不同,UAVDT 数据集则将视角带上了天空,聚焦于无人机视角下的车辆识别与跟踪问题。任务覆盖:目标检测(DET)、单目标跟踪(SOT)、多目标跟踪(MOT)
2025-06-09 17:25:58
1149
原创 足球判罚的AI解法:多阶段标定流程+57几何关键点,助力公平判罚
【导读】“苏超”激情碰撞,草根足球却常被争议判罚打断节奏?这项AI视觉研究带来了解决方案!论文《Enhancing Soccer Camera Calibration Through Keypoint Exploitation》创新性地利用足球场固有的几何结构(线、圆、弧),智能“计算”生成多达57个关键点(如线交点、切点),而非仅依赖易错的人工标注或有限视野点。结合深度学习与鲁棒的多阶段标定流程(包括智能选点、迭代优化和异常过滤),显著提升了摄像机标定精度和可靠性。>>更多资讯可加入CV技术群获取了解哦~
2025-06-09 16:32:50
953
原创 SFTrack:面向警务无人机的自适应多目标跟踪算法——突破小尺度高速运动目标的追踪瓶颈
【导读】本文针对无人机(UAV)视频中目标尺寸小、运动快导致的多目标跟踪难题,提出一种更简单高效的方法。核心创新在于从低置信度检测启动跟踪(贴合无人机场景特性),并改进传统外观匹配算法以关联此类检测。在VisDrone2019、UAVDT和MOT17数据集上,性能超越当前最优方法,展现卓越鲁棒性与适应性。>>近年来,随着无人机技术的快速发展,警务系统正逐步实现从"平面防控"向"立体巡防"的转型升级。无人机凭借其高空视野广、机动性强等特点,在嫌疑人追踪、交通监控、应急处突等警务实战中发挥着不可替代的作用。
2025-06-09 09:24:11
1347
原创 AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别
在训练过程中,使用了一个验证集,其中包含46张带有鹿的图像、17张带有牛的图像以及575张没有动物的图像(每条样带一张)。在选择的航线参数下,未观察到鹿在无人机接近时出现逃跑行为。在某些情况下,动态信息可用于检测动物,但理想情况下,鹿不应因无人机存在而受到惊扰,因此大多数视频两辆无人机的自动驾驶仪均为Pixhawk v2.4.8,每辆无人机均配置了PX4固件。在沼泽鹿数据库上训练的模型在潘帕斯鹿数据上进行了评估,两者在颜色上存在差异,尤其是在鹿的下部区域,潘帕斯鹿颜色较浅,而沼泽鹿则更偏棕色,如图8所示。
2025-06-06 09:19:12
939
原创 无人机+AI,基层治理飞入“智能时代”!打造空地一体新格局
从治安防控到生态巡护,从交通疏导到应急救援,无人机正在以其高效、智能、灵活的特性,加速嵌入基层治理的方方面面。2025年被不少业内人士视为“无人机应用的爆发元年”——技术逐渐成熟,政策持续开放,产业生态不断完善,而各地政府与社会治理部门也正在从“尝试”走向“规模化应用”。近年来,随着无人机技术的快速发展,越来越多地方将其纳入基层治理体系,构建起“空地一体、立体联动”的治理新格局。无论是治安巡逻、应急救援,还是交通管理与生态保护,无人机正以其灵活、高效、智能的优势,助力基层治理更精准、更智慧。
2025-06-05 09:15:28
1025
原创 NeRF、视频生成、多模态爆火!CVPR 2025 热门趋势全解析
多视角成像 + 多模态传感器(如 LiDAR、热成像、深度摄像头)的结合,物理世界与数字世界深度重叠,推动3D生成和理解迈向实用化,正在为这些应用提供坚实的技术支撑。作为CV领域的顶级学术盛会,CVPR 和 ICCV 这两大顶会的投稿数据和主题方向,堪称“风向标”级别的存在。多视角图像结合多传感器数据,实现了对物体和场景更精准的三维重建,正在成为自动驾驶、AR/VR、数字孪生等应用的关键技术支柱。不管你是刚起步的学生,还是多年深耕的研究者,这三大趋势都值得你深入关注,甚至提前布局。
2025-06-04 17:53:49
998
原创 【工业检测新思路】抛弃边界框!基于头部关键点的工地安全帽检测
近年来,基于视觉的施工现场安全系统中,深度学习方法受到了广泛关注。然而,目前仍缺乏一种可靠的方法来建立监督下的施工人员与其基本个人防护装备(如安全帽)之间的关联。为解决这一问题,本文提出了一种结合目标检测、关键点定位和简单规则推理的全新深度学习方法。在测试中,该方案超越了基于不同实例相对边界框位置的先前方法,以及直接检测安全帽佩戴者与非佩戴者的方法。与上述方法相比,该方案在MS COCO风格的整体AP上达到了67.5%,而上述方法分别为66.4%和66.3%;
2025-06-04 09:15:03
1009
原创 别只训练“头部”!计算机视觉模型微调的正确打开方式
借助 Coovally 平台即将上线的 SSH 功能,你可以摆脱传统平台的限制,深入模型内部,按需微调主干、解构架构、甚至自定义训练逻辑。为了开发者们更加自由调试模型,Coovally平台即将上线SSH远程连接,开发者们可以直接通过SSH连接Coovally的云端算力,基于。在像 Coovally 这样允许 SSH 自由调试的平台上,你可以完全控制模型训练过程,比如在 PyTorch 中:。你可以自由地选择训练策略,尝试不同的超参数、结构调整等,真正发挥你对模型的理解和创造力。
2025-06-03 09:58:11
954
原创 基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破
这项工作的意义超出了对大象行为的研究,它为未来基于无人机的野生动物行为研究在不同物种和生态环境中的发展提供了宝贵的见解。为保证公平比较,由于DeepLabCut仅能在提取的边界框上进行姿态估计,评估时仅选取YOLO-NAS-Pose工作流程中正确检测的边界框。标注时,对特别幼小的象崽若无法辨别耳朵,则仅标注脊柱关键点,耳朵标记为"遮挡"。补充材料包含带有姿态估计叠加的训练验证集追踪视频,既有效果良好的案例,也存在耳部检测不准的情况——虽然脊柱对齐效果稳定,但在快速运动或非常规姿态时耳尖检测容易出现偏差。
2025-06-03 09:47:59
1494
原创 数据集分享 | 塑料类型检测
数据集为塑料垃圾自动识别任务提供了坚实基础,具备实用性强、应用场景广、训练效果显著等优点。该数据集是一个专为训练图像分类模型识别不同类型塑料垃圾而设计的数据集,广泛适用于环保回收、智能垃圾桶、AI公益项目等场景。它涵盖了生活中最常见的塑料种类,具有清晰的图像标签和多样的拍摄角度,是推动垃圾自动识别分类系统的重要基础资源。分类标签共 7 类:PET、HDPE、PVC 、LDPE、PP、PS、其他。来源多样:实拍照片涵盖日常生活中的饮料瓶、洗护用品包装、塑料袋等。支持常见视觉任务:分类、检测、分割、识别等。
2025-05-29 16:58:01
822
原创 多模态融合新方向:光学+AI如何智能分拣,提升塑料回收率?
MRF 数据集是一个具有挑战性的数据集,其中包含变形和污染的塑料图像,因此可以对数据集进行全面探索,促进性能比较,帮助选择模型,并提高对模型行为的洞察力。我们使用 Mask RCNN 算法训练了 MRF 数据集的 70 幅图像(50 幅训练图像和 20 幅验证图像),以识别图像中不同的塑料物体,并获得激活图,从而确定算法重点关注的图像区域。这些图像是在具有挑战性的环境(不同的背景、光线条件等)中收集的,使用他们的应用程序接口获取图像,并使用相应的塑料树脂代码标识对这些图像进行了验证。
2025-05-29 16:48:41
1343
原创 精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈
从YOLO的NMS枷锁,到RT-DETR的实时化突破,再到RF-DETR的精度-效率平衡,实时检测技术正加速向端到端、轻量化演进。随着开发人员的创新,如今DETR的变体模型也是越来越优秀,从最初RT-DETR到前不久刚刚发布发布的RF-DETR。在传统的DETR中,解码器通常需要大量的计算来匹配物体和查询,但RT-DETR在此基础上进行了改进,通过更高效的解码机制加速了计算过程。因此,提出了RT-DETR,RRT-DETR是基于DETR架构的端到端对象检测器,完全消除了对NMS的需求。
2025-05-29 09:12:50
1193
原创 数据集分享 | 番茄成熟度检测
尤其是番茄的成熟阶段多样(如绿熟期、转色期、成熟期等),颜色、纹理和形状变化显著,准确识别不同成熟度等级对于提高分拣效率和减少损耗至关重要。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!为实现高精度的番茄成熟度检测,通常需要收集包含不同成熟阶段、生长角度、光照条件以及复杂背景(如枝叶遮挡、土壤反光等)的图像数据,并进行精细标注。同时还支持可视化验证和多模型对比。自然光下的果园,包含树枝、叶子、泥土、杂草等多样背景。
2025-05-28 09:45:02
1052
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人