深度学习常见名词解释、评价指标

目录

一、鲁棒性(robustness)

二、泛化能力(Generalization Ability)

核心含义:

如何衡量泛化能力?

三、先验信息(Prior Information) 

四、mIoU (Mean Intersection over Union,均交并比)

mIoU 有什么用?

1. 核心评估分割模型性能

2. 解决类别不平衡问题

3. 指导模型优化方向

五、消融实验(Ablation Study)

步骤 1:构建基线模型(Baseline)

步骤 2:逐步添加/移除组件

步骤 3:控制变量与公平比较

步骤 4:多维度性能评估

步骤 5:归因分析与结论


一、鲁棒性(robustness)

简单来说,鲁棒性指的是一个系统、模型、方法或算法在面对各种不确定性、干扰、参数变化、输入异常或环境变化时,仍然能够保持其预期性能、稳定性或功能的能力。

  • 算法鲁棒性: 比如机器学习算法对训练数据中的噪声、离群点不敏感,或者在不同分布的数据集上表现稳定。

  • 机器学习模型鲁棒性:

    • 对噪声数据的鲁棒性: 模型在含有错误标签或噪声特征的数据上训练或预测时,性能下降不大。

    • 对抗鲁棒性: 模型不易被精心设计的微小扰动(对抗样本)欺骗而做出错误预测。

    • 分布外泛化: 模型在训练数据分布以外的数据上依然有较好的表现。

二、泛化能力(Generalization Ability

一个训练好的模型在从未见过的、新数据(即非训练数据)上表现良好的能力

核心含义:

  1. 不是死记硬背,而是掌握规律
    泛化能力强的模型,不是简单记住训练样本的细节和噪声,而是真正理解了数据背后的内在规律、模式或本质特征
    例如:教孩子认识“猫”时,给他看不同品种、颜色、姿态的猫(训练数据)。泛化能力强的孩子看到一只从未见过的猫(新数据),也能认出它是猫。

  2. 避免过拟合(Overfitting)的关键

    • 过拟合模型:在训练数据上表现极好(甚至满分),但在新数据上表现糟糕。它过度拟合了训练数据的噪声和特定特征。

    • 泛化能力强的模型:在训练数据上表现良好(不一定完美),在新数据上也能保持稳定可靠的性能。

如何衡量泛化能力?

通常通过以下数据集评估:

  • 训练集(Training Set):用于训练模型。

  • 验证集(Validation Set):用于调参、选择模型。

  • 测试集(Test Set)最关键! 模拟未知数据,用于最终评估泛化能力。
    泛化性能 = 模型在测试集上的表现(如准确率、误差等)。

三、先验信息(Prior Information) 

分析当前数据或问题之前,已经拥有的关于研究对象的知识或假设

  • 先验:看到天气预报说“降水概率90%”,出门前你相信今天很可能下雨(先验信念)。

  • 数据:出门后观察天空乌云密布(新证据)。

  • 后验:结合预报和观察,你确信会下雨(后验信念),于是带伞。

关键点:先验信息是人类和AI系统从有限信息中高效推理的基础,避免“从零开始”学习。

四、mIoU (Mean Intersection over Union,均交并比)

交并比IoU:单类别分割精度的度量,计算预测区域真实区域的交集与并集的比值。

 

 mIoU:对所有类别的 IoU 取平均值,反映模型在所有类别上的整体分割精度。

k为类别总数。

mIoU 有什么用?

1. 核心评估分割模型性能
  • 比单纯“像素准确率(Pixel Accuracy)”更鲁棒:

    *例如:一张图中 90% 是背景,模型将所有像素预测为背景时,像素准确率=90%,但 mIoU 会因目标类别 IoU=0 而大幅下降。*

  • 直接反映模型对物体边界、小目标的识别能力(IoU 对区域重叠敏感)。

2. 解决类别不平衡问题
  • 在医学影像(如肿瘤分割)或自动驾驶(如行人检测)中,关键目标占比极小,mIoU 能公平评估小目标的分割质量。

3. 指导模型优化方向
  • 若某类 IoU 显著偏低,表明模型在该类别表现差,需针对性改进(如增加样本、调整损失函数)。

  • 比较不同模型时,mIoU 是公认的黄金指标(如 PASCAL VOC、Cityscapes 等权威榜单均以 mIoU 排名)。

五、消融实验(Ablation Study)

用于量化模型中各组件贡献的核心实验方法。它通过“拆解”模型,逐步移除或修改特定模块,观察性能变化,从而揭示每个组件的实际作用。

当提出一个新模型(如引入模块A+B+C),消融实验回答:
✅ 哪些组件真正有效?
✅ 各组件对性能的贡献比例?
✅ 是否存在冗余设计?

步骤 1:构建基线模型(Baseline)
  • 选择公认的基准模型(如 ResNet-50 用于图像分类)。

  • 记录其在标准数据集(如 ImageNet)上的性能指标(如 Top-1 Acc, mIoU)。

步骤 2:逐步添加/移除组件
  • 单组件消融:每次仅添加或移除一个组件(控制变量)。

  • 组合消融:测试多个组件的相互作用(如 A+B 与 A+C 的效果差异)。

步骤 3:控制变量与公平比较
  • 固定随机种子:确保训练结果可复现。

  • 相同超参数:学习率、batch size 等完全一致。

  • 相同训练数据:禁止因数据增强差异导致偏差。

步骤 4:多维度性能评估

除主指标(如精度)外,还需评估:

  • 计算开销:FLOPs、参数量、推理延时;

  • 鲁棒性:在不同数据集/噪声下的表现;

  • 可视化分析:特征图、注意力热力图对比(如 Grad-CAM)。

步骤 5:归因分析与结论
  • 量化贡献:计算每个组件带来的性能增益(如模块A贡献 80% 的总提升);

  • 有效性判断:若移除某组件性能不变,则其冗余;若性能显著下降,则其关键;

  • 组合效应:明确组件间是“互补”还是“可替代”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

何仙鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值