Coursea-吴恩达-machine learning学习笔记(十一)【week 6之Machine Learning System Design】

本文介绍如何利用机器学习技术进行垃圾邮件分类,包括特征选择、模型训练及评估等关键步骤,并探讨了提高分类精度的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

建立机器学习系统举例(垃圾邮件分类):
从邮件的训练集中,为每个邮件建立一个向量,每个元素代表一个单词,一般从训练集中找到最常用的10000100005000050000个单词组成向量,如果在邮件中找到该单词,向量对应位置用11表示,否则用0表示,构建完所有的向量,使用监督学习的逻辑回归模型训练。

常用的提高分类精度的方法:

  1. 收集大量的数据;
  2. 设计复杂的特征值(例如使用邮件名);
  3. 设计算法改变输入形式(例如识别邮件中的错误拼写)。

但很难说哪个方法一定有效。

构建机器学习系统的建议方法

  1. 从一个可以快速实现的简单算法开始,实现后在交叉验证集上测试;
  2. 画出学习曲线,看是高偏差还是高方差来决定是增加样本数还是增加特征值;
  3. 误差分析,手动检查被算法分错的交叉验证集中的样本,查看出现了哪些系统性错误。

误差分析可能无法帮你决定是否可以提高性能,唯一的方法是去试试,然后看是否有效果。

在交叉验证集上做误差分析,而不是测试集。

用一个具体数值来评价算法错误率很有必要,作为算法度量值。

偏斜类:正样本和负样本数量相差悬殊。
对于偏斜类,用分类精确度评价并不准确。

查准率/召回率
这里写图片描述
查准率:对于预测y=1y=1的,有多大比例真的为1.

True PositivePredicted PositiveTrue PositivePredicted Positive
其中Predicted Positive=True Positive+False PositivePredicted Positive=True Positive+False Positive

召回率:对于实际y=1y=1的,有多大比例预测为1

True PositiveActual PositiveTrue PositiveActual Positive
其中Actual Positive=True Positive+False NegativeActual Positive=True Positive+False Negative

一般,我们将实际发生次数较少的类定义为y=1y=1

实际设计机器学习系统时,应平衡查准率和召回率:
以癌症预测为例:
逻辑回归模型:0hθ(x)10⩽hθ(x)⩽1
如果hθ(x)0.5hθ(x)⩾0.5,则预测为1;
如果hθ(x)<0.5hθ(x)<0.5,则预测为0。
y=1y=1时,预测有癌症。

若将阈值从0.50.5调高至0.70.7,在交叉验证集上测试,查准率提升,但召回率下降;
若将阈值从0.50.5调低至0.30.3,在交叉验证集上测试,召回率提升,但查准率下降。

如果hθ(x)thresholdhθ(x)⩾threshold,则预测为1,设Precision(P)Precision(P)为查准率,Recall(R)Recall(R)为召回率,则:
F1 scoreF1 score2PRP+R2PRP+R该值越大越好。
完美的算法:P=1R=1F1 score=1P=1R=1F1 score=1

具备以下条件时,增加训练样本数有助于提高算法精度:

  1. 特征值xx包含足够的信息来准确预测y
  2. 假设函数包含很多参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值