吴恩达机器学习笔记（十）机器学习系统设计

最新推荐文章于 2022-05-19 10:08:02 发布

AngelaOrange

最新推荐文章于 2022-05-19 10:08:02 发布

阅读量351

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习笔记文章标签：机器学习吴恩达系统设计

本文链接：https://blog.youkuaiyun.com/qq_35175666/article/details/84796070

机器学习笔记专栏收录该内容

22 篇文章

订阅专栏

本文总结了吴恩达教授在Coursera上的机器学习课程，涵盖确定优先级、误差分析、偏斜类误差度量、查准率与查全率权衡及数据策略。适合初学者配合课程视频学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

吴恩达机器学习笔记（十）机器学习系统设计

一、确定执行的优先级（Prioritizing What to Work On）
二、误差分析（Error Analysis）
三、偏斜类的误差度量（Error Metrics for Skewed Classes）
四、查准率和查全率的权衡（Trading Off Precision and Recall）
五、机器学习数据（Data for Machine Learning）

本文章是笔者根据Coursera上吴恩达教授的机器学习课程来整理的笔记。如果是初学者，建议大家首先观看吴恩达教授的课程视频，然后再来看博文的要点总结。两者一起食用，效果更佳。

一、确定执行的优先级（Prioritizing What to Work On）

想构建一个垃圾邮件的分类器，有很多改善模型的方法可以执行，怎样排序优先级呢？本章我们将介绍。

取100个频繁出现的词，作为特征，若邮件中含有该词则值为1，若不含有则值为0。

要做的事情：

二、误差分析（Error Analysis）

在拿到一个问题之后，吴恩达教授建议大家先用一个最简单的算法来实现，然后绘制出学习曲线。而不要浪费大量的时间设计非常复杂的算法。虽然最简单的算法可能效果不是很好，但是我们能通过学习曲线来决定下一步的策略，是增加特征还是减小特征，还是找更多的训练数据。此外，通过人工地进行误差分析，找到误差产生的原因，分析出哪种情况下算法的预测会出错，这是一件非常有助益的事情。

例如之前讲到的垃圾邮件分类器的例子中，我们可以首先实现一个非常简单的算法。尽管错误率非常高，500个中有100个分类错误。接下来要做的事，就是对这100个分类错误的邮件进行误差分析。分析一下哪种错误最多，是什么导致的出错，从而更有针对性地对算法进行优化。

数值化评估的重要性：在犹豫要不要加入词根模型时，可以将加入前和加入后的错误率进行比较，如果加入后错误率降低了很多，那么就应该加入词根模型。

三、偏斜类的误差度量（Error Metrics for Skewed Classes）

在分类问题中，如果两个类别的样本数量差别非常悬殊，称为“偏斜类”。
在偏斜类中，使用一个数值来表示预测准确率，是不太合适的。

因此提出查准率（Precision）和召回率（查全率）（Recall）的两个概念，如下图.
Precision = true positive / predicted positive = TP/(TP+FP)
Recall = true positive / actual positive = TP/(TP+FN)