《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习（ML）策略2 笔记（如何进行误差分析）

最新推荐文章于 2022-03-18 14:14:06 发布

原创

最新推荐文章于 2022-03-18 14:14:06 发布 · 7.5k 阅读

CC 4.0 BY-SA版权

文章标签：

作者：jliang

1.重点归纳

1）误差分析：如果算法还达不到理想效果，那么人工检查一下算法所犯的错误，也许可以让你了解接下来应该做什么，这个过程称为误差分析。

（1）例子：一个取得90%准确率猫分类器，注意到有部分狗样本被识别为猫，使用误差分析来估计是否应该专门解决这个问题。随机抽样100个错误样本，检查把狗分类成猫的样本数量，如果这个样本占比很小，则不值得专门去优化这个问题。

（2）在做误差分析时也可以同时并行评估几个想法

建立一个表格来记录被抽样的错误样本属于哪种情况，并在每个样本中备注情况（如狗被识别为猫，备注上写上狗类型）。分别人工统计每种想法中误分类的错误样本数量，并计算每个错误类型的百分比。
建立一个表格来记录被抽样的错误样本属于哪种情况，并在每个样本中备注情况（如狗被识别为猫，备注上写上狗类型）。分别人工统计每种想法中误分类的错误样本数量，并计算每个错误类型的百分比。

（3）进行误差分析时应该找一组错误例子（验证集或测试集中的错误例子），观察错误标记的例子看看假阳性和假阴性，统计属于不同错误类型的错误数量。

2）标注错误的数据

（1）深度学习算法对训练集的随机误差是相当鲁棒的

（2）深度学习算法对系统性的错误就没有那么鲁棒了。比如说，如果做标记的人一直把白色的狗标记成猫。

（3）如果验证集和测试集中有标记错误的样本

如果这些标记错误的例子验证影响了你在验证集上评估算法的能力，那么就应该花时间修正错误的标签。如果它没有严重到影响到用验证集评估成本偏差的能力，那就不需要花费宝贵的时间去处理。
需要修正验证集标记错误的例子：假设系统达到98%准确度（2%的错误），假设错误标记引起的错误对验证集误差的影响为0.6%（30%*2%=0.6%）。评估模型时模型A误差是2.1%，模型B为1.9%，此时标记错误的样本足以影响我们评估哪个模型更好，此时应该修正验证集中的错误标记

（4）修正数据时指引和原则

应该同时修改验证集和测试集上的错误，验证集和测试集必须来自相同的分布，但训练集可以来自稍微不同的分布。
检查数据时检测全部验证/测试集，而不是只检测判断错误的样本。否则有可能有些被正确判断的样本其实是判断错误的，修正样本标签后导致对算法偏差的估计可能变得更大。
由于训练集数据量比较大，也因为前面讨论过的训练集的随机误差对算法影响不大，所以我们可能会只修正验证集和测试集的错误标记，而不修改训练集的错误标记。此时，训练集与验证集和测试集来自不同的数据分布。

3）开发一个全新的机器学习应用时，应该尽快建立第一个系统原型，然后快速迭代。

（1）流程

首先，快速设立验证集和测试集，还有评估指标。它决定了你的目标在哪里，如果你的目标定错了，之后改也是可以的。
然后搭好一个机器学习系统原型，然后找到训练集，看看训练效果如何，在验证集合测试集评估指标表现如何。
再进行偏差方差分析以及误差分析来确定下一步优先做什么。特别是如果误差分析让你了解到大部分误差的来源。
建立初始系统的意义在于有一个训练过的系统让你确定偏差方差的范围，就可以知道下一步应该优先做什么。让你能够进行误差分析，可以观察一些错误，然后想出所有能进行的方向，知道哪些是最优希望的方向。

（2）以下情况，快速搭建第一个系统的建议的适用程度要低一些，一开始就搭建比较复杂的系统