确定执行的优先级以及误差分析

本文以垃圾邮件分类为例,介绍在设计机器学习系统时,如何通过快速实现简单的算法并逐步优化来提高效率。强调先从简单模型入手,再依据错误分类案例增加特征的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本节我们讨论在设计一个机器学习的系统时,应该先做什么后做什么。

我们以垃圾邮件分类为例:

 

特征向量:

我们发现很多遇见故意拼错单词,从而逃避被视为垃圾邮件:

正确的步骤:

我们应该先实现一个简单粗暴的算法,然后将邮件进行分类,

接着手动的去将分错了的邮件重新分类,并且归纳出分错邮件的特征,从而增加我们的特征个数,

在判断是否要使用提取词干、区分大小写等方法时,我们直接先用交叉验证集来计算误差,看是否减小了误差率,有效则使用,无效则不使用。

重点在于,首先实现一个简单粗暴的算法,然后根据检测的结果,从而确定接下来应该重点去做哪个方面的事,而不是一开始就花大量的时间去构造复杂的算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值