结构化机器学习项目——机器学习策略(2)
一、误差分析
1.性能上限:优化模型中的某个性能所减少的最大的误差。
2.并行评估。对比多种导致误差的原因,通过分析错误标记的例子,统计假阳性(False positives)和假阴性(False nagatives)其在错误识别集中所占的比例,决定最终可选择的优化手段,同时在分析的过程中还可能受到启发发现新的问题类型。这种快速统计的过程可以经常做,只需要几个小时就可以帮助我们分析出高优先级的任务,并了解每种手段对性能提升有多大的空间。
二、清除错误标记的数据
1.标签错误的影响
(1)随机误差:深度学习算法对于随机误差具有很好的鲁棒性,只要训练集足够大错误标签可不做处理,当然修正也是有好处的但是不要花费过多的时间。
(2)系统性误差:比如数据工程师一直把白色小狗标记成猫,那就会影响分类效果。
2.错误标签数据的处理:如果标签错误严重影响了在开发测试集上评估算法的能力,那么就需要处理这种标签错误的数据;但是如果错误标签数据没有严重影响到开发集评估cost偏差的能力,则不需处理。
3.修正开发测试集中的错误样本
注意:(1)以相同的方式处理开发集和测试集,以保障他们有相同的分布;(2)和(3)可不做处理。
3.关于深度学习训练过程的误解:通常机器学习工程师在描述自己训练模型时习惯说“我只是把数据喂给模型