《吴恩达机器学习》笔记——12 机器学习系统设计

本文探讨了在设计机器学习系统时如何确定执行优先级,特别是在构建垃圾邮件分类器时的应用。介绍了监督学习方法,详细解释了如何选择特征向量描述邮件,并讨论了收集大量数据和使用复杂特征向量的重要性。此外,还分析了如何通过误差分析和学习曲线来识别算法的高偏差或高方差问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《吴恩达机器学习》笔记——12 机器学习系统设计

1 确定执行的优先级

构建一个垃圾邮件分类器

监督学习输入输出
符号xxxyyy
描述email的特征-
选择选择100个词来表明是否为垃圾邮件x∈R100x\in\mathbb{R}^{100}xR100xj={1若单词j出现在邮件中0其他x_j=\left\{\begin{matrix}1 &若单词j出现在邮件中\\0&其他\end{matrix}\right.xj={10j垃圾邮件(1)或非垃圾邮件(0)
减小误差方法例子
收集大量数据honeypot
用更复杂的特征向量描述邮件邮件标头
根据邮件正文构建更复杂的特征向量-
检测出垃圾邮件中的错误拼写-

2 误差分析

推荐方法
通过一个简单的算法来快速地实现
画出相应的学习曲线来找出算法是否存在高偏差或高方差的问题
误差分析:观察交叉验证集的情况

3 不对称性分类的误差评估

偏斜类
一个类中的样本数与另一个类的数据相比多很多
预测类\真实类10
1True PositiveFalse Positive
0False NegativeTrue Negative
评估查准率(Precision( P ))召回率(Recall( R ))F1F_1F1
公式TPTP+FP\frac{TP}{TP+FP}TP+FPTPTPTP+FN\frac{TP}{TP+FN}TP+FNTP2PRP+R2\frac{PR}{P+R}2P+RPR
目标
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值