Prioritizing What to Work On确定工作的优先顺序
建立垃圾邮件(拼写错误)和非垃圾邮件的监督学习分类器
如果数据中存在此单词,向量中标为1。如果数据中不存在此单词,向量中标为0。
对于邮件特征,我们经常挑选出频率高的单词,而不是手动根据经验选择100个单词。
减少错误率的方法(不一定都有效,具体问题具体分析)
1.收集大量的数据,也就是样本,来增大我们的训练量。(例如有一个“honeypot project”,故意将假的邮箱地址泄露给发垃圾邮件的人,这样就可以得到大量的垃圾邮件训练样本了)
2.根据邮件来源的路径信息增加更复杂的特征变量或者从邮件的标题或者正文内容构造更复杂的特征变量。
3.构造更加复杂的算法。(例如自动纠正单词拼写的错误)
练习题:
选择(A,D)
解释:
A.我们很难知道哪一种解决办法是最有效的,正确。
B.C.是解决问题的一种方法,但是不一定有效。
D.直觉不是一种好办法,正确。
Error analysis误差分析
1.从一个简单的算法开始,快速实现它,并在早期使用交叉验证数据测试它。
2.绘制学习曲线以决定更多的数据、更多的特性等是否有帮助。
3.手动检查交叉验证集中的中的错误发生的原因,并尝试找出导致大多数错误的趋势。
对于分错的数据,
(1)查看其邮件的类别,明确提高方向。 本例中钓鱼邮件 steal passwords类型邮件很多,故此为努力方向。
(2)查看那个特征可以帮助提高算法准确率。不寻