吴恩达机器学习(九)—— 机器学习系统的设计(Machine Learning System Design)

1、首先要做什么(Prioritizing What to Work On)

本节节首先介绍在实际工作过程中,应该先处理哪些事情。

以一个垃圾邮件分类器算法为例进行讨论。
在这里插入图片描述

  • 首先要做的决定是如何选择并表达特征向量?。可以选择一个由 100 个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否有在邮件中出现,来获得特征向量(出现为 1,不出现为 0),尺寸为 100×1。
  • 事实上,会通过大量垃圾邮件统计高频单词,每个单词出现在10,000到50,000之间,将它们作为特征向量,而不是手动选择。

如何在有限的时间下让垃圾邮件分类器具有高精准度和低错误率?

  1. 收集更多的数据(honeypot项目)
  2. 基于邮件的路由信息开发一系列复杂的特征 (邮件头部)
  3. 基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理 (discount 和discounts是否被对待一致,首字母大小写,关于标点符号的特征)
  4. 开发复杂的算法来检测出单词中故意出现的拼写错误(把 watch 写成 w4tch,可以逃避检查)

2、误差分析(Error Analysis)

本节主要介绍误差分析的概念,能帮助在众多方法中作出选择。

构建一个学习算法的推荐方法为:

  1. 从一个简单的能快速实现的算法开始,快速实现该算法,并用交叉验证集数据测试这个算法
  2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
  3. 进行误差分析:人工检查交叉验证集中算法产生预测误差的实例,看看这些
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值