本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning中Andrew老师的讲解。(https://class.coursera.org/ml/class/index)
第七讲. 机器学习系统设计——Machine learning System Design
===============================
(一)、决定基本策略
(二)、Error分析
☆(三)、对Skewed Classes建立Error Metrics
☆(四)、在Precision 和 Recall (精度和召回率)间权衡
(五)、机器学习数据选定
===============================
(一)、决定基本策略
在本章中,我们用一个实际例子<怎样进行垃圾邮件Spam的分类>来描述机器学习系统设计方法。
首先我们来看两封邮件,左边是一封垃圾邮件Spam,右边是一封非垃圾邮件Non-Spam:
观察其样式可以发现,垃圾邮件有很多features,那么我们想要建立一个Spam分类器,就要进行有监督学习,将Spam的features提取出来,而希望这些features能够很好的区分Spam vs. Non-Spam.
就如下图所示,我们提取出来deal, buy, discount, now等feature,建立起这样的一个feature向量: