深度学习（12）：机器学习策略（1）_低频数据机器学习-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44334615/article/details/105744480

本文介绍了机器学习过程中重要的策略，如正交化，确保模型修改只影响单一性能维度。讨论了单一数字评估指标如平均值和F1指数的重要性，以及如何满足和优化多个指标。此外，还强调了根据实际应用调整开发集、测试集和评估指标的必要性，并以人的表现为基准来评估模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习的过程是高度迭代的过程。我们往往需要定期对模型进行修改以提升模型性能。然而一次错误的决策可能使我们白白浪费几周甚至几个月的时间。因此机器学习策略很关键。

机器学习的一般性步骤如下：
1.在训练集上获得良好表现
2.跟据dev验证集选择模型，并获得良好表现
3.确定模型后在test测试集上获取良好表现
4.在实际应用中获得良好表现。

正交化

正交化是指我们对模型的某一处修改，只应该影响模型单一维度的性能，而不能对其他维度产生较大的副作用。例如，如果我采用early stoppping的方式对模型进行修改，既会影响测试集的准确率（偏差），又会影响验证集准确率（方差表现为二者差值）。这就会给模型的训练带来很大的难度。
常见的正交化策略如下：
1.训练集：增大神经网络规模（层数、节点数），采用更优秀的优化算法（Adam等）
2.验证集；正则化、采用更大的训练集
3.测试集：采用更大的验证集
4.实际表现：更换验证集测试集（验证集分布与实际不符）、更改代价函数的评估方式。

单一数字评估指标

在对不同模型进行评估时，如果我们参考的指标过多（查准率、查全率），就会使我们难以比较各个模型的优劣（很难出现全面碾压的情况）。当模型数目增多时，选择会更加困难。因此采用单一数字评估指标，有利于我们快速决策。
常见的单一数字评估指标：
平均值、F1指数（查准率和查全率的调和平均值）。。。

满足和优化指标

对于多个指标，除了进行单一数字评估之外，还可以将指标进行分类。例如对于某一个分类模型，我将查准率设计成满足指标，对其设计一个底线要求90%，查准率不超过90%的模型统统放弃。随后将查全率设计成优化指标，在随后的选择中只考虑查全率，选择较高者。这样的方式也能帮助我们收窄眼界，快速选择。

修改开发集、测试集和评估指标

1.修改开发集、测试集： 当我们发现实际应用的数据分布与开发集测试集有着明显差异时，应当果断修改开发集和测试集。开发集和测试集相当于我们的训练目标，我们必须确保开发集、测试集、实际应用的数据保持相同分布，我们的模型才会最终表现优秀。例如训练集、开发集、测试集的数据都是高清图片，但实际应用却是低清图片，这一定会使得模型表现较差。
2.修改评估指标： 通过修改评估指标的方式，可以修改模型的训练倾向。例如：我们进行猫图片的识别，但是不希望误把家具图片识别成猫。可以大幅提升家具图片识别错误的罚分，为了仍然使评估指标较低，模型就必须额外减少家具图片的错误率，以满足实际需求。

对标人的表现

我们在进行机器学习的过程中，往往希望我们的模型接近或略微超过人的表现。你看阿尔法狗也是在和李世石做对比。下面解释其中的原因。首先介绍几个概念。

贝叶斯误差： 这个误差是我们利用现有数据、调用各种手段所得的最小误差。举一个极端的例子，我们希望利用房屋面积估计房价，然而在只知道面积的情况下，输入数据过于有限，神仙模型也没法准确预测每一个房屋的价格（北京和18线小城市价格能一样吗）。这个误差叫做贝叶斯误差，是任何模型能达到的上界。

人的表现： 在很多时候，人的表现是非常优秀的。例如图像识别、自然语言处理、语音识别。这个时候人的表现已经十分接近贝叶斯误差。

我们进行模型训练，就是为了让模型的性能逼近贝叶斯误差。
假设一个任务的贝叶斯误差是10%
你的模型：
1.训练集5%，验证集15%：模型过拟合了，训练集误差比贝叶斯误差都笑
2.训练集%15，验证集16%：模型的偏差较大，可以先把偏差降一降。
3.训练集11%，验证集16%：模型的方差较大，可以考虑提升验证集表现。
可见贝叶斯误差能够为我们的训练指引方向。

然而很多时候我们并不能准确知道一个问题的贝叶斯误差，因此，我们往往用人的表现去估计贝叶斯误差。我们测试集的误差和人的表现得差值被称为可避免偏差，我们可以尽力优化，使得可避免偏差尽可能小。然后再优化验证集表现，使得方差尽可能小。

很多时候，我们发现当一个模型超过了人的表现后，往往再进行优化十分困难，原因如下：
1.人的表现本来就接近贝叶斯误差，优化空间已经不大了
2.当模型不如人的表现时，我们可以采用各种各样的方式进行优化：比如通过人工增加数据量；分析人的行为获得启发；利用上面说的可避免偏差等指标针对性优化。然而当模型已经比人的表现优秀时，上述的方法都不是特别有效了。