作者: 大树先生
博客: http://blog.youkuaiyun.com/koala_tree
知乎:https://www.zhihu.com/people/dashuxiansheng
GitHub:https://github.com/KoalaTree
2017 年 10 月 18 日
以下为在Coursera上吴恩达老师的DeepLearning.ai课程项目中,第三部分《结构化机器学习项目》第一周课程“机器学习策略(1)”关键点的笔记。本次笔记并没有涵盖所有视频课程的内容。在阅读以下笔记的同时,强烈建议学习吴恩达老师的视频课程,视频请至 Coursera 或者 网易云课堂。
同时我在知乎上开设了关于机器学习深度学习的专栏收录下面的笔记,方便在移动端的学习。欢迎关注我的知乎:大树先生。一起学习一起进步呀!_
结构化机器学习项目 — 机器学习策略(1)
1. 正交化
表示在机器学习模型建立的整个流程中,我们需要根据不同部分反映的问题,去做相应的调整,从而更加容易地判断出是在哪一个部分出现了问题,并做相应的解决措施。
正交化或正交性是一种系统设计属性,其确保修改算法的指令或部分不会对系统的其他部分产生或传播副作用。 相互独立地验证使得算法变得更简单,减少了测试和开发的时间。
当在监督学习模型中,以下的4个假设需要真实且是相互正交的:
- 系统在训练集上表现的好
- 否则,使用更大的神经网络、更好的优化算法
- 系统在开发集上表现的好
- 否则,使用正则化、更大的训练集
- 系统在测试集上表现的好
- 否则,使用更大的开发集
- 在真实的系统环境中表现的好
- 否则,修改开发测试集、修改代价函数
2. 单一数字评估指标
在训练机器学习模型的时候,无论是调整超参数,还是尝试更好的优化算法,为问题设置一个单一数字评估指标,可以更好更快的评估模型。
example1
下面是分别训练的两个分类器的Precision、Recall以及F1 score。
由上表可以看出,以Precision为指标,则分类器A的分类效果好;以Recall为指标,则分类器B的分类效果好。所以在有两个及以上判定指标的时候,我们很难决定出A好还是B好。
这里以Precision和Recall为基础,构成一个综合指标F1 Score,那么我们利用F1 Score便可以更容易的评判出分类器A的效果更好。
指标介绍:
在二分类问题中,通过预测我们得到下面的真实值 y y y和预测值 y ^ \hat y y^的表:
- Precision(查准率):
P r e c i s i o n = T r u e p o s i t i v e N u m b e r o f p r e d i c t e d p o s i t i v e × 100 % = T r u e p o s i t i v e T r u e p o s i t i v e + F a l s e p o s i t i v e Precision = \dfrac{True\ positive}{Number\ of\ predicted\ positive} \times 100\%= \dfrac{True\ positive}{True\ positive + False\ positive} Precision=Number of predicted positiveTrue positive×100%=True positive+False positiveTrue positive
假设在是否为猫的分类问题中,查准率代表:所有模型预测为猫的图片中,确实为猫的概率。 - Recall(查全率):
R e c a l