【Stanford机器学习笔记】9-Machine Learning System Design

这篇笔记介绍了构建垃圾邮件分类器的过程,包括建立常用词字典,构造特征向量和训练分类模型。还讨论了处理偏斜数据的重要性,如使用精确度和召回率作为评价指标,以及在精度和召回率之间做出权衡的F Score。最后,强调了在大型数据集上训练模型以降低偏差和方差的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这一节主要讲如何构建一个机器学习系统以及其中可能遇到的问题。

1. Building a Spam Classifier

1.1 Prioritizing What to Work On

创建一个垃圾邮件分类系统:

  • 构建一个垃圾邮件的常用词字典
  • 通过与字典中的词比较构建特征向量
  • 构建分类器进行训练得到最优分类模型

这里写图片描述

如何优化分类模型,常用的方法:

这里写图片描述

1.2 Error Analysis

当构建一个机器学习应用时,建议的一个顺序是:

  • 首先构建一个比较简单的模型或算法
  • 绘画出该模型的学习曲线,来诊断该模型是否有高偏差和高方差问题,进一步判断收集更多的数据和特征是否有帮助
  • 误差分析,对交叉验证误差进行分析,分析是什么导致了误差,并根据分析结果判断如何改善模型,

这里写图片描述

2. Handling Skewed Data

2.1 Error Metrics for Skewed Classes

(1)偏斜类(Skewed Classes)是指假设一个样本中有两类,其中一类的数目比另一类的样本数目要多的多,这时我们用总体分类精度来评价该机器学习模型可能会出现较大的误差和问题,比如利用一个简单的模型(y=0)就可以获得很高的模型精度,但是这显然不适合实际样本的,所以就需要使用其他方法来对该模型进行评价,避免偏斜类的问题。所以就产生了Precision和Recall评价方法。

这里写图片描述

(2)Precision 和Recall是另一种评价模型精度的方法,对于偏斜类问题能较好的对模型进行评价。

Predicted Class/ Actual Class10
1True PositiveFalse Positive
0False NegativeTrue Negative

计算Precision和Recall的公式如下:

Precision=True positivetrue positive+ false positiveRecall=True positiveTrue positive+false negative

这里写图片描述

2.2 Trading Off Precision and Recall

(1)通过Precision和Recall参数可以定量评价一个模型,但是有时需要根据实际情况选择是高Precision还是高Recall,对于逻辑回归模型,这可以通过修改阈值来实现,但是如何自动的选择合适的阈值呢?

这里写图片描述

(2)F Score
利用precision和recall无法全面的对模型进行评价,F Score是将precision和recall合在一起的度量参数评价指标,可以基本权衡一个算法的有效性。

F=2PRP+R

这里写图片描述

3. Using Large Data Sets

3.1 Data for machine learning

大数据集能保证我们能获得一个低偏差和低方差的模型

  • 如果我们有大量的特征,则可以避免High Bias的问题
  • 同时如果我们有大量的数据,则可以避免High Variance的问题
  • 具有较低的训练集误差和交叉误差,我们就可以获得一个较低的测试误差

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值