故障还原
yolov5训练出现NAN问题。
故障等级 P0
故障简述 yolov5训练的时候,由于16x系列的显卡,照成与高版本的cuda不兼容,导致的NAN结果,通过降低cuda版本至10.2版本就可以进行训练。
发现方式 通过YOLOv5目标检测模型训练和验证过程中的性能指标图
故障发现时间 2025.1.20
故障发生时间 2025.1.20
故障恢复时间 2025.2.1
目标检测模型训练和验证过程中的性能指标图(NAN)
处理过程
在使用YoloV5进行模型训练时,遇到了Box Loss、Cls Loss以及Dfl Loss均显示为NAN值的问题,同时模型评估指标Box(PR mAP50 mAP50-95)均为0,这表明模型未能正常收敛。经过一番排查,发现该问题源于显卡驱动与CUDA版本之间的兼容性问题,具体是由于NVIDIA 16系列显卡与当前安装的CUDA版本存在冲突。为了解决这一问题,参考了网上的相关解决方案,将CUDA版本降级至10.2,最终成功解决了模型训练中的异常情况,恢复正常训练流程。
结果图
本次模型训练结果表明,由于该数据集仅包含单一类别,分类损失(train/cls_loss 和 val/cls_loss)始终为零。尽管训练数据量有限(约100张),但模型表现出色,各项指标均达到了较高水平。具体来说,其他损失值已显著下降至0.1以下,表明模型在回归任务上已具备较高的精度和稳定性。精确率(precision)接近1,表明模型在识别障碍物时的准确性极高,几乎不会出现误检的情况;召回率(recall)接近0.9,表明模型能够检测到约90%的实际障碍物,漏检率较低。特别值得注意的是,模型在mAP_0.5指标上达到了0.95的高分,这表明在较高的重叠度要求下,模型仍能保持极高的定位精度和稳健的检测性能。这一指标通常用于更严格的模型评估场景中,能够综合反映模型在不同重叠度要求下的整体表现。
故障原因
产品需求
在EGO-Planner无人机的避障系统设计中集成YOLO(You Only Look Once)目标检测算法,以增强其障碍物识别能力。
研发阶段
● 设计合理,技术设计阶段未发现原因。
● 开发自测阶段发现yolo系列训练nan的问题
故障总结
在检索问题时,要注意关键要准确,这样才能够检索到有用的信息,从而解决问题。
最终效果展示: