Machine Learning System Design的一道题

本文通过具体案例解析了垃圾邮件检测算法的评估指标,包括召回率、准确率和精确率等,探讨了不同预测策略对这些指标的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一道很简单的题快把我绕晕了...(年纪大了真是拙计)
图片描述
图片描述

化简一下:
Spam y=1 | 1%
Non-spam y=0 | 99%

图片描述
图片描述

我开始有点懂了,上图左侧,横轴是事实,纵轴是预测。
一共100封邮件,1封垃圾,99正常邮件。
即Actual Positive=1; Actual negative=99
A选项 always predict y=0,即True positive=0

即recall=0/1=0

B选项 always predict y=1,即True positive=1; False positive=99;

即recall=1/1=100%; Precision=1/(1+99)=1%

C选项 同上
D选项 always predict y=0,则 accuracy=99/100=99%

图片描述
Lowering the threshold means more y = 1 predictions. This will increase both true and false positives, so Precision will decrease.
Increase true positives, decreasing false Negatives,so Recall will Increase.
Recall相当于下图
图片描述

类似的

吴恩达的机器学习系统设计选择主要包含以下几个方面: 1. 训练集和开发/测试集:选择合适的训练集和开发/测试集对于构建有效的机器学习系统非常重要。我们需要确保训练集和开发/测试集能够代表真实的数据分布,并且在划分数据集时要考虑到数据的随机性和一致性。 2. 性能指标选择:根据具体的问和需求,选择合适的性能指标来评估机器学习系统的表现。如分类问可以选择准确率、精确率、召回率等指标,回归问可以选择均方误差或相关系数等指标。 3. 偏差和方差的平衡:在机器学习系统中,我们通常会面临偏差和方差之间的权衡。通过增加模型的复杂度可以降低偏差,但容易引起方差过高;通过减小模型的复杂度可以减小方差,但容易导致偏差过高。需要根据具体情况选择适当的模型复杂度。 4. 错误分析:在构建机器学习系统时,我们需要进行错误分析来深入了解模型在不同数据集上的表现。通过错误分析,我们可以找出模型存在的问,并采取相应的措施进行修正和优化。 5. 学习曲线:学习曲线可以帮助我们了解模型的训练过程。通过绘制训练集和开发/测试集的误差随着训练集大小变化的曲线,我们可以判断模型是否出现高偏差或高方差的情况,从而决定是否需要增加更多的训练数据或者调整模型复杂度。 吴恩达强调了以上几个方面的重要性,并提供了相应的选择帮助我们更好地设计和调整机器学习系统,以获得更好的性能和效果。这些选择的回答需要结合具体问和数据情况进行分析和判断,从而做出最合理的决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值