深度学习常见名词解释、评价指标

原创已于 2025-07-11 14:19:24 修改 · 807 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习

于 2025-07-11 14:18:57 首次发布

目录

一、鲁棒性(robustness)

二、泛化能力（Generalization Ability）

核心含义：

如何衡量泛化能力？

三、先验信息（Prior Information）

四、mIoU （Mean Intersection over Union，均交并比）

mIoU 有什么用？

1. 核心评估分割模型性能

2. 解决类别不平衡问题

3. 指导模型优化方向

五、消融实验（Ablation Study）

步骤 1：构建基线模型（Baseline）

步骤 2：逐步添加/移除组件

步骤 3：控制变量与公平比较

步骤 4：多维度性能评估

步骤 5：归因分析与结论

一、鲁棒性(robustness)

简单来说，鲁棒性指的是一个系统、模型、方法或算法在面对各种不确定性、干扰、参数变化、输入异常或环境变化时，仍然能够保持其预期性能、稳定性或功能的能力。

算法鲁棒性： 比如机器学习算法对训练数据中的噪声、离群点不敏感，或者在不同分布的数据集上表现稳定。
机器学习模型鲁棒性：
- 对噪声数据的鲁棒性： 模型在含有错误标签或噪声特征的数据上训练或预测时，性能下降不大。
- 对抗鲁棒性： 模型不易被精心设计的微小扰动（对抗样本）欺骗而做出错误预测。
- 分布外泛化： 模型在训练数据分布以外的数据上依然有较好的表现。

二、泛化能力（Generalization Ability）

一个训练好的模型在从未见过的、新数据（即非训练数据）上表现良好的能力。

核心含义：

不是死记硬背，而是掌握规律
泛化能力强的模型，不是简单记住训练样本的细节和噪声，而是真正理解了数据背后的内在规律、模式或本质特征。
例如：教孩子认识“猫”时，给他看不同品种、颜色、姿态的猫（训练数据）。泛化能力强的孩子看到一只从未见过的猫（新数据），也能认出它是猫。
避免过拟合（Overfitting）的关键
- 过拟合模型：在训练数据上表现极好（甚至满分），但在新数据上表现糟糕。它过度拟合了训练数据的噪声和特定特征。
- 泛化能力强的模型：在训练数据上表现良好（不一定完美），在新数据上也能保持稳定可靠的性能。

如何衡量泛化能力？

通常通过以下数据集评估：

训练集（Training Set）：用于训练模型。
验证集（Validation Set）：用于调参、选择模型。
测试集（Test Set）：最关键！ 模拟未知数据，用于最终评估泛化能力。
泛化性能 = 模型在测试集上的表现（如准确率、误差等）。

三、先验信息（Prior Information）

分析当前数据或问题之前，已经拥有的关于研究对象的知识或假设。

先验：看到天气预报说“降水概率90%”，出门前你相信今天很可能下雨（先验信念）。
数据：出门后观察天空乌云密布（新证据）。
后验：结合预报和观察，你确信会下雨（后验信念），于是带伞。

关键点：先验信息是人类和AI系统从有限信息中高效推理的基础，避免“从零开始”学习。

四、mIoU （Mean Intersection over Union，均交并比）

交并比IoU：单类别分割精度的度量，计算预测区域和真实区域的交集与并集的比值。

mIoU：对所有类别的 IoU 取平均值，反映模型在所有类别上的整体分割精度。

k为类别总数。

mIoU 有什么用？

1. 核心评估分割模型性能

比单纯“像素准确率（Pixel Accuracy）”更鲁棒：

*例如：一张图中 90% 是背景，模型将所有像素预测为背景时，像素准确率=90%，但 mIoU 会因目标类别 IoU=0 而大幅下降。*
直接反映模型对物体边界、小目标的识别能力（IoU 对区域重叠敏感）。

2. 解决类别不平衡问题

在医学影像（如肿瘤分割）或自动驾驶（如行人检测）中，关键目标占比极小，mIoU 能公平评估小目标的分割质量。

3. 指导模型优化方向

若某类 IoU 显著偏低，表明模型在该类别表现差，需针对性改进（如增加样本、调整损失函数）。
比较不同模型时，mIoU 是公认的黄金指标（如 PASCAL VOC、Cityscapes 等权威榜单均以 mIoU 排名）。

五、消融实验（Ablation Study）

用于量化模型中各组件贡献的核心实验方法。它通过“拆解”模型，逐步移除或修改特定模块，观察性能变化，从而揭示每个组件的实际作用。

当提出一个新模型（如引入模块A+B+C），消融实验回答：
✅ 哪些组件真正有效？
✅ 各组件对性能的贡献比例？
✅ 是否存在冗余设计？

步骤 1：构建基线模型（Baseline）

选择公认的基准模型（如 ResNet-50 用于图像分类）。
记录其在标准数据集（如 ImageNet）上的性能指标（如 Top-1 Acc, mIoU）。

步骤 2：逐步添加/移除组件

单组件消融：每次仅添加或移除一个组件（控制变量）。
组合消融：测试多个组件的相互作用（如 A+B 与 A+C 的效果差异）。

步骤 3：控制变量与公平比较

固定随机种子：确保训练结果可复现。
相同超参数：学习率、batch size 等完全一致。
相同训练数据：禁止因数据增强差异导致偏差。

步骤 4：多维度性能评估

除主指标（如精度）外，还需评估：

计算开销：FLOPs、参数量、推理延时；
鲁棒性：在不同数据集/噪声下的表现；
可视化分析：特征图、注意力热力图对比（如 Grad-CAM）。

步骤 5：归因分析与结论

量化贡献：计算每个组件带来的性能增益（如模块A贡献 80% 的总提升）；
有效性判断：若移除某组件性能不变，则其冗余；若性能显著下降，则其关键；
组合效应：明确组件间是“互补”还是“可替代”。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

何仙鸟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。