深度学习笔记（九）——结构化机器学习项目（机器学习（ML）策略（1））

最新推荐文章于 2024-08-28 02:26:45 发布

原创最新推荐文章于 2024-08-28 02:26:45 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

吴恩达深度学习工程师专栏收录该内容

10 篇文章

订阅专栏

1.为什么是ML策略

对深度神经网络模型的优化可以从很多方面进行，例如：

Collect more data
Collect more diverse training set
Train algorithm longer with gradient descent
Try Adam instead of gradient descent
Try bigger network
Try smaller network
Try dropout
Add L2 regularization
Network architecture: Activation functions, #hidden units…

可选择的方法很多，也很复杂、繁琐。盲目选择、尝试不仅耗费时间而且可能收效甚微。因此，使用快速、有效的策略来优化机器学习模型是非常必要的。

2.正交化

通过每次只调试一个参数，保持其它参数不变，使模型某一性能改变是一种最常用的调参策略，也就是正交化方法。

对应到机器学习监督式学习模型中，可以大致分成四个独立的“功能”，每个“功能”对应一些可调节的唯一的旋钮。四个“功能”如下：

Fit training set well on cost function
Fit dev set well on cost function
Fit test set well on cost function
Performs well in real world

其中，第一条优化训练集可以通过使用更复杂的网络、Adam等优化算法来实现；第二条优化验证集可以通过正则化，采用更多训练样本来实现；第三条优化测试集可以通过使用更多的验证集样本来实现；第四条提升实际应用模型可以通过更换验证集，使用新的cost function来实现。概括来说，每一种“功能”对应不同的调节方法。而这些调节方法（旋钮）只会对应一个“功能”，是正交的。

顺便提一下，early stopping在模型功能调试中并不推荐使用。因为early stopping在提升验证集性能的同时降低了训练集的性能。也就是说early stopping同时影响两个“功能”，不具有独立性、正交性。

3.单一数字评估指标

构建、优化机器学习模型时，单值评价指标非常必要。有了量化的单值评价指标后，就能根据这一指标比较不同超参数对应的模型的优劣。

查准率Precision：如果你的分类器（猫）认为该图片是猫，有一定的概率是正确的，这个概率就是查准率。

查全率Recall：在所有为猫的图片中，成功识别出多少。

不推荐使用这两个来判断模型优劣，需要一个结合二者的指标，也就是F1 score。

F1 Score综合了Precision和Recall的大小，计算方法如下：

$F1=\frac{2\cdot P\cdot R}{P+R}$

除了F1 Score之外，我们还可以使用平均值作为单值评价指标来对模型进行评估。多个模型对不同样本的错误率不同，可以计算其平均性能，然后选择平均错误率最小的那个模型。

4.满足和优化指标

有时候，要把所有的性能指标都综合在一起，构成单值评价指标是比较困难的。解决办法是，我们可以把某些性能作为优化指标（Optimizing metic），寻求最优化值，越优越好；而某些性能作为满意指标（Satisficing metic），只要满足阈值就行了。

5.训练/开发/测试集划分

原则上应该尽量保证dev sets和test sets来源于同一分布且都反映了实际样本的情况。如果dev sets和test sets不来自同一分布，那么我们从dev sets上选择的“最佳”模型往往不能够在test sets上表现得很好。这就好比我们在dev sets上找到最接近一个靶的靶心的箭，但是我们test sets提供的靶心却远远偏离dev sets上的靶心，结果这支肯定无法射中test sets上的靶心位置。

这里写图片描述

6.开发集和测试集的大小

当样本数量不多（小于一万）的时候，通常将Train/dev/test sets的比例设为60%/20%/20%，在没有dev sets的情况下，Train/test sets的比例设为70%/30%。当样本数量很大（百万级别）的时候，通常将相应的比例设为98%/1%/1%或者99%/1%。

对于dev sets数量的设置，应该遵循的准则是通过dev sets能够检测不同算法或模型的区别，以便选择出更好的模型。

对于test sets数量的设置，应该遵循的准则是通过test sets能够反映出模型在实际中的表现。

实际应用中，可能只有train/dev sets，而没有test sets。这种情况也是允许的，只要算法模型没有对dev sets过拟合。但是，条件允许的话，最好是有test sets，实现无偏估计。

7.什么时候该改变开发/测试集和指标

算法模型的评价标准有时候需要根据实际情况进行动态调整，目的是让算法模型在实际应用中有更好的效果。

举个猫类识别的例子。初始的评价标准是错误率，算法A错误率为3%，算法B错误率为5%。显然，A更好一些。但是，实际使用时发现算法A会误识别一些图片当做是猫，但是B没有出现这种情况。从用户的角度来说，他们可能更倾向选择B模型，虽然B的错误率高一些。这时候，就需要改变之前的评价标准。例如增加其他图片的权重，增加其代价。

原来的cost function：

$J=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})$

更改评价标准后的cost function：

$J=\frac{1}{w^{(i)}}\sum_{i=1}^mw^{(i)}L(\hat y^{(i)},y^{(i)})$

$w^{(i)}=\begin{cases} 1, & x^{(i)}\ is\ non-porn\\ 10, & x^{(i)}\ is\ porn \end{cases}$

概括来说，机器学习可分为两个过程：

Define a metric to evaluate classifiers
How to do well on this metric

也就是说，第一步是找靶心，第二步是通过训练，射中靶心。但是在训练的过程中可能会根据实际情况改变算法模型的评价标准，进行动态调整。

另外一个需要动态改变评价标准的情况是dev/test sets与实际使用的样本分布不一致。比如猫类识别样本图像分辨率差异。

这里写图片描述

8.为什么是人的表现

机器学习模型的表现通常会跟人类水平表现作比较，如下图所示：

这里写图片描述

横坐标是训练时间，纵坐标是准确性。机器学习模型经过训练会不断接近human-level performance甚至超过它。但是，超过human-level performance之后，准确性会上升得比较缓慢，最终不断接近理想的最优情况，我们称之为bayes optimal error。理论上任何模型都不能超过它，bayes optimal error代表了最佳表现。

实际上，human-level performance在某些方面有不俗的表现。例如图像识别、语音识别等领域，人类是很擅长的。所以，让机器学习模型性能不断接近human-level performance非常必要也做出很多努力：

Get labeled data from humans.
Gain insight from manual error analysis: Why did a person get this right?
Better analysis of bias/variance.

9.可避免偏差

实际应用中，要看human-level error，training error和dev error的相对值。例如猫类识别的例子中，如果human-level error为1%，training error为8%，dev error为10%。由于training error与human-level error相差7%，dev error与training error只相差2%，所以目标是尽量在训练过程中减小training error，即减小偏差bias。如果图片很模糊，肉眼也看不太清，human-level error提高到7.5%。这时，由于training error与human-level error只相差0.5%，dev error与training error只相差2%，所以目标是尽量在训练过程中减小dev error，即方差variance。这是相对而言的。实际应用中，我们一般会用human-level error代表bayes optimal error。

training error与human-level error之间的差值称为bias，也称作avoidable bias；把dev error与training error之间的差值称为variance。根据bias和variance值的相对大小，可以知道算法模型是否发生了欠拟合或者过拟合。增加训练时间 , 使用较大的网络结构 , 尝试更先进的优化算法(如Adam) , 或者修改网络结构(可能有效可能无效)可以减小偏差；采用更多的数据 , 其次使用正则化(Dropout, Batch Normzation , L1 , L2等等...) , 修改网络结构(可能有效可能无效 , 也可能同时减少方差和偏差)可以减小方差。

10.理解人的表现

human-level performance能够代表bayes optimal error。但是，human-level performance如何定义呢？举个医学图像识别的例子，不同人群的error有所不同：

Typical human : 3% error
Typical doctor : 1% error
Experienced doctor : 0.7% error
Team of experienced doctors : 0.5% error

不同人群的错误率不同。一般来说，将表现最好的那一组作为human-level performance。但是实际应用中，不同人可能选择的human-level performance基准是不同的，这会带来一些影响。

假如该模型training error为0.7%，dev error为0.8。如果选择Team of experienced doctors，即human-level error为0.5%，则bias比variance更加突出。如果选择Experienced doctor，即human-level error为0.7%，则variance更加突出。也就是说，选择什么样的human-level error，有时候会影响bias和variance值的相对变化。当然这种情况一般只会在模型表现很好，接近bayes optimal error的时候出现。越接近bayes optimal error，模型越难继续优化，因为这时候的human-level performance可能是比较模糊难以准确定义的。

11.超过人的表现

对于自然感知类问题，例如视觉、听觉等，机器学习的表现不及人类。但是在很多其它方面，机器学习模型的表现已经超过人类了，包括：

Online advertising
Product recommendations
Logistics(predicting transit time)
Loan approvals

实际上，机器学习模型超过human-level performance是比较困难的。但是只要提供足够多的样本数据，训练复杂的神经网络，模型预测准确性会大大提高，很有可能接近甚至超过human-level performance。值得一提的是当算法模型的表现超过human-level performance时，很难再通过人的直觉来解决如何继续提高算法模型性能的问题。