- 博客(124)
- 收藏
- 关注
原创 清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
例如,YOLOE-v8-S在3倍少的训练成本下,比YOLO-Worldv2-S高出3.5 AP,且在T4 GPU和iPhone 12上的推理速度分别提高了1.4倍和1.3倍。例如,在线性探测策略下,YOLOE-11-M和YOLOE-11-L在不到2%的训练时间内,分别达到了YOLO11-M和YOLO11-L超过80%的性能。例如,YOLOE-v8-M和YOLOE-v8-L在不到YOLOv8-M和YOLOv8-L四分之一的训练时间下,分别提高了0.4 APm和0.6 APb。
2025-03-27 17:28:40
816
原创 李飞飞、吴佳俊团队新作:FlowMo如何以零卷积、零对抗损失实现ImageNet重构新巅峰
自VQGAN和潜在扩散模型等流行的视觉生成框架出现以来,最先进的图像生成系统一般都是两阶段系统,首先将视觉数据标记化或压缩到低维潜在空间,然后再学习生成模型。标记化训练通常采用标准方法,即根据MSE、实际损失和对抗损失的组合对图像进行压缩和重建。扩散自动编码器在之前的工作中已被提出,作为一种学习端到端感知导向图像压缩的方法,但在ImageNet-1K重构这一竞争性任务中尚未显示出最先进的性能。我们提出的FlowMo是一种基于变换器的扩散自动编码器,它能以多种压缩率实现最新的图像标记化,而无需使用卷积、对抗损
2025-03-26 17:46:14
1275
原创 融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
我们的工作扩展了这一方法,整合了对操作员身体状况的持续监控,以提高整体安全性,解决了人机工程学方法综合调查中强调的关键问题,并为动态任务环境提供了反应更灵敏的系统。最近的一些研究,如Ferraguti等人的研究,提出了在HRC协作中自动进行人体工程学评估的解决方案,但这些方法并不总能成功地持续监控操作员的身体状况。Marvel等人提出的速度与分离监控(SSM)方法可监控人与机器人之间的速度和距离,以防止碰撞,但由于缺乏与先进视觉感知技术的集成,限制了其在复杂环境中的流畅性。图 6 监控姿势的更新延迟。
2025-03-26 09:09:04
763
原创 统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架
目录一、摘要二、引言三、相关工作开放词汇对象检测开放世界目标检测参数高效学习四、高效通用的开放世界目标检测问题定义高效的自适应决策学习开放世界通配符学习五、Coovally AI模型训练与应用平台六、实验数据集评价指标实施细节定量结果消融研究定性结果结论传统的目标检测模型受到封闭数据集的限制,只能检测训练过程中遇到的类别。虽然多模态模型通过对齐文本和图像模态扩展了类别识别,但由于跨模态融合,它们引入了大量过度推理,而且仍然受到预定义词汇的限制,使它们无法有效地识别开放世界场景中的未知物体。在这项工作中,我们
2025-03-21 16:49:00
1210
原创 MLOps赋能AI全生命周期:从数据到模型的工业化革命,助力企业高效迭代与落地
例如,早期PoC阶段采用轻量模型(如YOLO-Nano)快速上线验证商业价值,然后在后续迭代中逐步替换为精度更高、但也更复杂的新模型(如ConvNeXt),所有版本均被完整追踪,确保技术升级与市场节奏的平衡。通过使用Coovally平台,团队可以更好地实践MLops理念,从而加速AI项目的迭代速度,提高模型质量,并降低运维成本。通过Coovally这样的平台,即使是规模较小的团队也能够采用企业级的MLops最佳实践,在竞争激烈的AI领域中保持技术优势和创新能力。
2025-03-21 09:21:41
986
原创 跨粒度小样本语义缺陷分割新范式:MFANet与FASNet助力无缝钢管内表面缺陷检测
数据集包含:图像级标注的疑似缺陷筛分数据集(图2)和像素级标注的缺陷分割数据集(图3)。研究团队构建了一个名为CGFSDS-9的跨粒度小样本缺陷分割数据集,包含3类粗粒度标注的缺陷(如带钢、铝合金和磁瓦)和6类细粒度标注的无缝钢管缺陷。该模型基于元学习框架,嵌入了缺陷特征聚合模块(图8)和多尺度特征解码器(图9),能够在边缘设备上高效运行,适用于实时检测场景。针对检测机器人采集的图像中存在样本不平衡问题(无缺陷样本远多于缺陷样本),研究团队提出了基于MobileNet系列的疑似缺陷筛分模型。
2025-03-20 09:27:59
649
原创 99.22%准确率!EfficientNet优化算法实现猪肉新鲜度无损快检
针对传统猪肉新鲜度检测方法效率低、破坏性强的问题,本研究提出一种基于EfficientNet框架的智能无损检测技术。通过采集2500张原始猪肉图像,结合旋转、缩放等增强策略构建6万张数据集,并采用迁移学习策略(CIFAR-10预训练+五分类微调)优化模型性能。实验表明,改进后的。
2025-03-18 16:38:53
759
原创 利用大语言模型生成的合成数据训练YOLOv12:提升商业果园苹果检测的精度与效率
之前小编分享过关于《YOLO11-CBAM集成:提升商业苹果园树干与树枝分割的精准度》,改进YOLO11算法后,进行苹果树的实例分割。本期文章我们将分享关于最新的YOLO12算法改进的苹果目标检测。本研究评估了YOLOv12物体检测模型的性能,并与YOLOv11和YOLOv10进行了比较,以使用大型语言模型 (LLM) 生成的合成图像检测商业果园中的苹果。YOLOv12n配置表现出色,精确度最高,为0.916,召回率最高,为0.969,平均精确度 (mAP@50) 最高,为0.978。相比之下,YOLOv1
2025-03-18 09:31:34
874
原创 数据增强常见问题与解决方案:提升AI模型性能的关键技巧
在前面系列文章中我们从数据清洗、数据质量评估再到数据预处理和数据增强,详细介绍了相关的技术和代码解析。那如何对这些数据进⾏版本化管理,保障项⽬的可复现性和协同开发效率呢?其实这与传统软件开发中的代码版本管理有相似之处,但在规模和复杂度上要更胜⼀筹。今天小编将将深入探讨关于数据管理中的常见问题与解决、故障排除指南以及实践建议来帮助您在AI项目中实际应用。数据增强的强度是影响模型性能的重要因素。过强的增强可能导致数据失真,而过弱的增强则可能无法有效提升模型的泛化能力。
2025-03-14 16:40:42
1221
原创 何恺明团队新突破:用“物理直觉“重构AI视觉系统,去噪神经网络让机器看懂世界规律
当神经网络学会用哈密顿方程“思考”,计算机视觉的边界再次被拓展——从医疗影像中的细胞运动分析,到元宇宙中的物理交互仿真,一个更懂“世界运行法则”的AI时代正在到来。这相当于为动态场景创建“物理身份证”,例如在自动驾驶中,同一模型可区分轿车与卡车的运动模式,轨迹预测精度提升至92%。在单摆和双摆系统中,采用块大小为2的DHN能稳定保持总能量,而增大块大小可能导致短期能量波动,但不会引发能量漂移。相比HNN和无物理约束的基线模型,DHN在较小块大小下能提供更准确的状态预测,并具备更好的节能效果。
2025-03-13 17:19:45
1159
原创 基于GenAI的农业杂草检测:YOLO11模型量化与合成增强的优化探索
目录一、摘要二、引言三、背景相关工作扩散模型目标检测模型量化四、方法数据集实验设置五、Coovally AI模型训练与应用平台六、研究结果七、讨论八、结论基于深度学习的杂草控制系统经常受到训练数据多样性有限和板载计算受限的影响,从而影响其实际性能。为了克服这些挑战,我们提出了一个框架,利用基于稳定扩散的涂色技术,以10%-200%的增量逐步增加训练数据,从而提高样本的数量和多样性。我们使用mAP50指标来评估检测性能,并在两个最先进的物体检测模型YOLO11(l)和RT-DETR(l)上对我们的方法进行了评
2025-03-13 10:04:05
960
原创 机器学习特征筛选:向后淘汰法提升模型泛化能力(附Python代码)
然而,对于大多数实际的机器学习工作流程,像statsmodels、sklearn和其他模型优化工具(如RFE)这样的库sklearn可以帮助自动化和简化这一过程。Scikit-learn使用递归特征消除(RFE)提供了一种更加自动化的特征选择方法,它本质上是一种自动化的后向消除形式。它通常用于特征选择很重要的模型,如线性回归、逻辑回归和其他特征可解释性很重要的模型。删除最不显著的特征(具有最高 p 值的特征,通常高于0.05这样的阈值)。您有一个非常具体的要求(例如,您希望对每个步骤有更多的控制)。
2025-03-11 16:14:11
803
原创 无标签数据增强+高效注意力GAN:基于CARLA的夜间车辆检测精度跃升
该模型能够以很高的置信度检测到车辆并对其进行定位,这凸显了利用适当的增强数据进行微调的有效性,使其成为实际应用中更可靠的解决方案。尽管如此,我们也承认在未来的研究中应该解决几个局限性问题:(1)虽然 CARLA目前提供了多种类型的车辆,但仍未涵盖道路上的所有车辆类型,尤其是牵引车和房车,这限制了合成数据的多样性。CARLA模拟器是这一过程不可或缺的一部分,因为它可以忠实地模拟车辆在夜间的车头灯效果,有效地解决了现有人工智能模型的局限性,因为这些模型往往无法捕捉从白天到黑夜的转换过程中的车头灯效果。
2025-03-11 16:13:14
1052
原创 DeepSeek引领端侧AI革命,边缘智能重构AI价值金字塔
边缘与端侧的落地浪潮,标志着AI进入“务实时代”——以更低的成本、更高的可靠性,赋能千行百业。这场技术革命正引发产业智能化浪潮:企业级市场掀起DeepSeek接入热潮,而基于其知识蒸馏技术衍生的轻量级模型,更以"端智能"新范式加速渗透,从工业质检机器人到移动终端AI助手,各类边缘计算设备迎来认知能力质的飞跃。通过更轻量的架构、更高效的数据利用策略,它们在降低计算成本的同时,保持了媲美大模型的推理能力,推动AI从“云端智能”迈向“终端智变”。2025年的AI战场,硝烟早已从“参数军备竞赛”转向更隐秘的角落。
2025-03-10 17:47:25
993
原创 QwQ-32B:小模型大智慧,开启AI普惠化与视觉智能新时代
QwQ-32B采用"动态稀疏专家混合"架构,通过门控网络动态激活0.5%的神经元(约1.6亿参数),在推理时实现参数利用率的指数级提升。这种"神经元级弹舱设计"使得模型在数学推理(GSM8K 92.1%)、代码生成(HumanEval 75.6%)等任务上,以1/20的参数量达到DeepSeek-R1 98.7%的性能水平。引入多模态奖励模型Q-Reward V2,通过对抗训练生成包含文本、代码、数学符号的混合负样本,使模型在保持专业能力的同时,通用对话的流畅性提升52%。
2025-03-10 09:22:09
820
原创 一码难求的Manus,又对计算机视觉产生冲击?复刻开源版已在路上!
例如,在简历筛选场景中,Manus能解压文件、自动解析简历中的图文混合内容(如证件照、图表排版),并提取关键信息进行决策,这一过程融合了文档视觉理解(Document AI)与语义分析技术。邬贺铨院士预测,2025年端侧CV模型将支持实时4K视频分析与AR交互,结合Manus的自主决策能力,或催生“视觉智能体即服务”(VaaS)新业态。联想“擎天混合AI平台”集成的城市超级智能体,结合Manus的视觉分析能力,可实时处理交通监控视频流,识别异常事件(如交通事故、人群聚集),并联动相关部门启动应急响应。
2025-03-07 17:20:18
1138
原创 YOLO11-CBAM集成:提升商业苹果园树干与树枝分割的精准度
目录一、摘要二、引言三、方法研究地点和数据采集模型训练的数据准备将CBAM与YOLO11集成并进行深度学习训练性能指标评估准备验证数据集并评估模型在每个季节的性能跨季节测试四、Coovally AI模型训练与应用平台五、结果YOLO11-CBAM 训练结果YOLO11-CBAM 模型在休眠季节数据集中的验证结果树冠季数据集的验证结果六、讨论七、结论与未来在本研究中,我们通过将卷积块注意力模块(CBAM)与YOLO11架构相结合,开发了一种定制的实例分割模型。该模型在休眠期和树冠期苹果园图像的混合数据集上进行
2025-03-06 16:37:24
1148
原创 如何用更少的内存训练你的PyTorch模型?深度学习GPU内存优化策略总结
本文将系统介绍多种优化策略,这些方法在组合应用的情况下,可将训练过程中的内存占用降低近 20 倍,而不会影响模型性能和预测精度。梯度累积(Gradient Accumulation)通过累积多个小批量的梯度,以实现较大的“虚拟”批次大小,从而降低对GPU内存的需求。对于超大规模模型,可以使用完全分片数据并行(FSDP)技术,将模型参数、梯度和优化器状态拆分至多个GPU,以降低单 GPU 的内存压力。对于非常大的模型,即使采用了上述所有技术,由于中间激活次数过多,您仍可能会达到GPU内存的极限。
2025-03-06 09:27:48
1072
原创 YOLOv11助力结肠镜检查:精准息肉检测新突破
目录一、摘要二、引言三、相关工作四、材料和方法数据集描述数据预处理YOLOv11的架构五、Coovally AI模型训练与应用平台六、实验使用矩阵实验装置训练和测试七、结果与讨论八、结论与未来展望直肠癌(CRC)是全世界最常见的癌症之一。它始于结肠内壁的息肉。要预防 CRC,就必须及早发现息肉。结肠镜用于检查结肠。一般来说,内窥镜顶端的摄像头拍摄的图像由专家手动分析。随着机器学习的兴起,各种传统的机器学习模型已被广泛使用。最近,深度学习模型因其在泛化和学习小特征方面的优势,在息肉检测中显示出更大的有效性。这
2025-03-05 16:09:32
914
原创 YO-CSA-T:基于上下文和空间注意力的YOLO实时羽毛球追踪系统
在过去的十年中,深度学习迅速发展,并在众多领域找到了广泛的应用,引发了多项引人注目的人机竞赛。其中,实时提取羽毛球的三维轨迹,作为人机竞赛的第一步,由于其速度和准确性,直接影响后续策略的有效性。CoT2f是在YOLO的骨干网络中实现的,旨在增强提取全局上下文的能力,并减轻代表性信息的衰减。在上下文变换块(CoT)和空间分组增强(SGE)的基础上,我们引入了带2次卷积的上下文变换块(CoT2f)和空间注意力集成颈部(SANeck),它们加强了网络在骨干和颈部过程中提取和增强特征的能力,尤其是在位置分布方面。
2025-03-05 09:10:41
1147
原创 数据处理(四)| 数据增强全解析:从基础概念到实战代码,掌握核心技巧!
对于⽬标检测或图像分类任务,若某些类别数据本就稀少,可以额外针对这些类别做更多增强,如随机裁剪、增加噪声、形变等,以提⾼该类别在训练中的权重。对于⽬标检测或图像分类任务,若某些类别数据本就稀少,可以额外针对这些类别做更多增强,如随机裁剪、增加噪声、形变等,以提⾼该类别在训练中的权重。其实,“质量优先、多样性优先”通常是AI数据策略中更为实际的考量,也解释了为什么许多团队选择在已有数据的基础上,通过各种增强⼿段来挖掘潜能,⽽不是⼀味地追求数据规模的扩张。全程可视化查看与参数设置,丝滑操作!
2025-03-03 16:21:00
1076
原创 数据处理(三)| 深入数据预处理:提升机器学习模型性能的关键步骤
今天要和大家继续讲解机器学习中一个看似枯燥但至关重要的环节——数据预处理。前面已经讲解过数据清洗和数据评质量评估(点击跳转),如果你已看过,那你已经打下了坚实的基础!今天这篇内容会更聚焦于预处理的核心技巧,手把手教你如何将原始数据“打磨”成模型的最爱。如果你要训练一个猫狗模型,但给你的数据中:有的图片亮度忽明忽暗(尺度不一致),有的标签写着“猫”却混入了狗的照片(噪声干扰),甚至有些图片只有半只猫(数据缺失),这样的数据直接丢给模型,结果只能是检测效果大打折扣!数据预处理可以解释为数据清洗和数据评估等的总和
2025-03-03 09:43:48
1047
原创 深入理解Vision Transformer中的图像块嵌入:从数据准备到视觉实现的全面讲解
需要注意的是,卷积操作为每个维度使用一个专用的卷积核,而到目前为止,我们一直在为每个图像块使用相同的卷积核。实际上有一种更简单的方法可以将展开和线性变换结合起来,那就是使用2D卷积,并设置卷积核大小和步长长度与期望的图像块大小相对应。通常图像块的创建步骤会与使用2D卷积的第一个可学习的非线性变换相结合,这对于初学者来说可能比较难以理解,所以本文将深入探讨这一过程。类,转换图像并将其可视化。需要注意的是,在可视化之前,需要先删除批次维度,然后将一维的图像数据转换回二维张量,才能正确显示图像块。
2025-02-27 16:27:25
1034
原创 YOLOv12架构深度解析:关键架构特征的细分
这些改进减少了内存占用和推理延迟,使YOLOv12成为各种应用的理想选择,包括对快速、准确的目标检测要求极高的自主导航,以及在严格的功率和计算限制条件下运行的机器人或无人机等嵌入式视觉系统。YOLOv12标志着实时物体检测领域的开创性进步,通过整合以注意力为中心的机制、精简的架构设计和优化的训练管道,实现了模式的转变。YOLOv12能够以高帧频执行稳健的检测,这拓宽了它的适用范围,使自动驾驶等使用案例受益匪浅,因为在这些使用案例中,毫秒级的决策至关重要,而实时安全系统则需要跟踪快速移动的目标。
2025-02-27 16:27:11
1392
原创 数据处理(二)| 打磨数据,提升模型:全面解读图像数据质量评估
通过系统化的图像数据质量评估,我们可以更好地掌控数据集的质量,发现潜在问题,避免不必要的错误和偏差。数据质量直接影响模型的效果,只有确保数据的健康,才能让模型在实际应用中发挥出最大的潜力。通过建立一个评分系统,用户可以更好地理解数据集的健康状态,并基于具体的评分采取相应的优化措施,从而提升数据集的质量,确保模型训练的效果。2). IoU(Intersection over Union):评估预测框和真实框的重叠度,IoU越高,模型预测的框越准确。衡量图像质量的一种常见指标,通常用于图像压缩或恢复任务中。
2025-02-26 16:10:13
939
原创 YOLOv12深度测评:从创新到部署,硬件适配与YOLOv11性能全对比(附无代码流程)
进入【图像数据】页面,点击创建数据集,输入数据集名称、描述,选择任务类型,上传压缩包文件。无论你是AI领域的专家,还是刚刚接触机器学习的初学者,Coovally平台都能为你提供简便高效的模型训练体验。进入数据集详情页,输入任务名称,选择模型配置模版,设置实验E-poch次数,训练次数等信息,即可开始训练。通过使用Coovally平台,你可以大大缩短项目的开发周期,提高生产力,快速将你的想法转化为实际应用。模型训练完成后,可查看数据集和标签的具体信息,还能看到标签类别与真实标签、预测标签的数量,以及。
2025-02-26 09:40:30
2058
原创 数据处理(一)| 从“脏数据”到“干净数据”:数据清洗全流程详细解析与实践指南
无论你使用多么先进的神经网络结构、多么强大的算力,若数据本身充斥着错误、缺失、噪声或偏差,模型最终也难以表现理想。本节将针对这一问题,详细探讨“脏”数据的常见类型,以及如何系统地对其进行清洗,让训练数据能够"让模型满意。数据清洗是数据科学中不可或缺的一环,它决定了数据的质量和后续分析的效果。理解数据的产生背景,能够帮助判断哪些“脏”数据是纯粹的噪声,哪些是具有实际意义但极端的情况。我们将开启一系列关于数据处理的精彩文章,带你从零开始,逐步掌握数据处理的方方面面,最终成为数据领域的“炼金术士”!
2025-02-24 16:37:31
1603
原创 DeepSeek引领目标检测新趋势:如何通过知识蒸馏优化模型性能
通过知识蒸馏,轻量级学生模型(如MobileNet、YOLOv5)能在保持精度的同时,显著减小模型体积和推理时间,适合资源有限的设备。简单来说,它通过将大模型的“知识”传递给一个较小、计算量更低的模型,让后者在保持高精度的同时,减少计算资源的消耗。就像学生通过模仿老师的思路来掌握知识一样,学生模型虽然资源有限,但通过模仿强大的教师模型,仍然能在精度和推理速度上做出出色表现。通过知识迁移,蒸馏技术能够将大模型的知识压缩到小模型中,从而在保持模型性能的同时,降低模型的复杂性、提升推理速度并减少能耗。
2025-02-24 16:17:01
1241
原创 YOLOv12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
进行了消融实验来验证区域注意的有效性,评估是在 YOLOv12-N/S/X模型上进行的,测量了GPU(CUDA)和CPU上的推理速度。调整MLP比率,进一步提升了速度和精度,去除了位置编码,并引入了大卷积核(7×7卷积),有效增强了网络对位置的感知能力,同时保持了计算效率。YOLOv12通过创新的区域注意力模块、残差层高效网络和架构优化,在精度、推理速度和计算效率上实现了突破,并挑战了基于CNN的设计在YOLO系统中的主导地位,并推动了注意力机制在实时物体检测中的集成,为未来的实时检测系统开辟了新的方向。
2025-02-20 16:52:30
1671
原创 基于YOLOv8、v9、v11及混合模型的头盔检测深度解析
另一项重大进展是RetinaNet,它引入了焦点损失函数来解决类不平衡问题、最后,Mask R-CNN对Faster R-CNN进行了扩展,不仅能检测物体,还能进行实例分割,使其在机器人和自主系统等要求像素级精度的任务中非常有效。自动系统技术进步的重要任务。因此,在准确率差异为2.31%的情况下,h-YOLO模型优于独立的YOLO模型,考虑到项目的目标可能涉及民用生活,这一差异是显著的。虽然这种能检测违章者的技术的实施不在本文的讨论范围之内,但从上一节的结果来看,以实际可靠的方式检测头盔的第一步已经实现。
2025-02-19 16:03:52
938
原创 Python高性能编程:五种核心优化技术的原理与Python代码
Python代码的性能优化是一个系统工程,需要在多个层面进行考虑,在实际开发中,应该根据具体场景选择合适的优化策略,既要关注性能提升,也要维护代码的可读性和可维护性。由于Python的垃圾回收和后台进程的影响,有时可能会观察到一些反直觉的结果,比如优化后的实例创建时间略长。这种现象通常是由测量过程中的系统开销造成的,但从整体来看,优化后的实现在内存效率方面仍然具有显著优势。其原因在于,列表推导式是在底层通过优化过的C语言循环实现的,避免了多次调用Python字节码的开销。
2025-02-19 09:04:33
993
原创 FFCA-YOLO:突破小物体检测瓶颈,提升遥感应用中的精度与效率
除此之外,为进一步降低计算资源消耗同时保持效率,还提出了其精简版L-FFCA-YOLO,L-FFCA-YOLO速度更快、参数规模更小、计算力需求更低,而精度损失甚微,展现了良好的性能与效率平衡。L-FFCA-YOLO在保持较高性能的同时,显著减少了参数数量,特别是在使用CSPFasterBlock时,虽然计算复杂度相对较高,但在精度和速度的平衡上表现出色。而SCAM进一步优化了特征图,增强了小物体的检测能力,并抑制了背景干扰,进一步提升了模型的整体性能。FFM通过将这两种信息融合,提高了小物体的辨识能力。
2025-02-18 16:25:25
1042
原创 YOLO11-JDE:利用自监督再识别技术实现快速准确的多目标跟踪
目录摘要论文信息引言相关工作通过检测跟踪再识别联合检测和嵌入YOLO11-JDE架构自监督训练策略Re-ID损失数据关联Coovally AI模型训练与应用平台实验结果数据集和指标实现细节消融实验MOTChallenge的结果总结YOLO11-JDE,它是一种快速准确的多目标跟踪(MOT)解决方案,将实时目标检测与自监督再识别(Re-ID)相结合。通过在YOLO11s中加入专门的再识别分支,该模型可以执行联合检测和嵌入(JDE),为每次检测生成外观特征。再识别分支在完全自我监督的情况下进行训练,同时进行检测
2025-02-18 09:08:52
1222
原创 DeepSeek预测2025目标检测算法Top 5:谁将主导下一代视觉感知?
2025年的目标检测市场将呈现“三层金字塔”格局:底层(YOLO/EfficientDet)解决规模化需求,中层(Swin/DETR)攻坚高壁垒行业,顶层(DiffusionDet)探索技术无人区。随着英伟达Grace等新一代边缘计算芯片的发展,YOLO11通过动态剪枝(如LayerDrop2.0)适配不同的硬件,为边缘设备提供高效的目标检测解决方案。而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,
2025-02-13 17:36:37
895
原创 YOLO11性能飞跃的背后:从C3k2到C2PSA,技术细节全解析!
传统SPP模块需要并行计算多个池化层,而SPPF通过重复使用中间计算结果,将计算复杂度从O(∑kCHWk2)O(∑kCHWk2)降低至O(CHW⋅max(k)2)O(CHW⋅max(k)2),其中kk为池化核尺寸。支持通过c3k参数选择使用C3k(可变卷积核)或标准Bottleneck,并通过n控制模块重复次数,g控制分组卷积,e调节通道扩展率,实现计算效率与性能的平衡。在骨干网络中,初始卷积层的步幅(stride=2)和核尺寸(如3×3)优化了特征图的下采样效率,减少信息丢失。
2025-02-13 09:34:45
1512
原创 基于YOLO11的术中超声实时脑肿瘤检测:从模型训练到手术室部署
目录引言一、论文信息二、摘要三、数据集研究人群真实标签分割四、YOLO11架构YOLO11增强五、Coovally AI模型训练与应用平台六、评估指标和实验环境模型性能评估指标计算效率指标实验环境七、实验结果目标检测任务实例分割任务手术室模型实施八、讨论未来方向九、结论引言胶质瘤是原发性脑肿瘤中最常见的一种,其浸润性特征通常会导致预后不良和重大的治疗挑战。根据世界卫生组织(WHO)对中枢神经系统肿瘤的最
2025-02-11 15:26:14
761
原创 Vision Transformer:打破CNN垄断,全局注意力机制重塑计算机视觉范式
相比于传统的CNN,ViT通过自注意力机制实现了全局建模,能够捕捉更复杂的图像特征,尤其在大规模数据集上的表现非常优异。总体而言,虽然ViT的Transformer架构是视觉处理任务的一个有前途的选择,但在ImageNet等中型数据集上从头开始训练时,ViT的性能仍然不如类似规模的CNN替代方案(例如ResNet)。ViT的设计灵感来源于Transformer架构,最初Transformer的提出是为了处理NLP任务的序列数据(如文本),它通过自注意力捕捉机制来捕捉图像中各部分之间的全局依赖。
2025-02-11 09:05:29
1646
原创 LLaVA-Mini模型深度解析:轻量级视觉识别的突破与性能对比
在本文中,我们介绍了LLaVA-Mini,一种使用最少视觉token的高效LMM。为了在保留视觉信息的同时实现较高的视觉token压缩率,我们首先分析了LMM如何理解视觉token,发现大多数视觉tokens只在LLM 骨干的早期层中发挥关键作用,在这些层中,它们主要将视觉信息融合为文本标记。为了在压缩过程中保留视觉信息,基于先前的研究发现,视觉token在早期层中对于融合视觉信息至关重要,LLaVA-Mini在LLM底座之前引入了模态预融合模块,将视觉信息融入文本token 中,从而确保视觉理解能力。
2025-02-08 17:22:43
917
2
原创 YOLO11改进 | 北理工团队在小目标检测领域新创新!NECK层改进,即插即用特征融合模块!
特别是,取代了RetinaNet中的FPN检测精度(AP)提高了3.1%,而模型的计算负荷减少了17.7%,使用GFL作为基本检测器,达到了30.1mAP。GFF增强了特征之间的相关性,加强了小物体在不同特征之间的依赖性,从而可以感知更多的语义信息。通过MFF-GN,得到了具有较强特征相关性和丰富空间信息的特征,可以充分利用相邻层的语义信息,提取不同通道的相关特征,从而增强整体特征表示。通过关注空间上下文信息和层间特征之间的相关性,该策略增强了特征之间的语义表征,从而提高了多尺度特征的学习能力。
2025-02-07 16:52:38
1022
1
原创 【数据增强实战】对比度增强算法:手撕算法vs零代码工具——效率翻倍的秘诀全公开!(附源码)
图像的对比度增强算法在很多场合都有着重要的应用,特别是在医学图像上,这是因为在众多疾病的诊断中,医学图像的视觉检查是很有必要的。而医学图像由于本身及成像条件的限制,图像的对比度很低。例如,在一个完全黑暗的图像中,所有的像素值都会集中在直方图的最左边,而在一个全白的图像中,直方图则会向最右边倾斜。本文介绍了几种常见的对比度增强算法,包括直方图均衡化、自适应直方图均衡化、CLAHE、伽马校正、对比度拉伸和局部对比度增强通过这些算法,可以根据不同的应用场景选择合适的对比度增强方法,以达到最佳的图像处理效果。
2025-02-07 09:46:46
639
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人