参考:李航《统计学习方法》
一、分类(classification)
输入变量X的值可以是连续的,也可以是离散的,输出变量Y的值是离散的,这时对Y进行预测变成了分类问题。可能的输出Y值称为类(class)。当分类的Y值为多个时,称为多分类问题。
分类器(classifier):监督学习从数据中学习到的函数
如何评价分类器的性能?某个分类器好,还是不好?
1)通用的评价指标
分类准确率(accuracy):给定数据集,分类器能正确分类的样本数占总样本数的比例。
2)二分类问题中的评价指标
二分类中,关注的类为正类,其他为负类。
TP=将正类预测为正类的数目。
FP=将负类预测为正类的数目。
TP+FP=将样本预测为正类的数目。
FN=将正类预测为负类的数目。
TN=将负类预测为负类的数目。
FN+TN=将样本预测为负类的数目。
精确率(precision)=P=TP/(TP+FP)=正类中预测正确的数目/所有预测为正类的数目
召回率(recall)=R=TP/(TP+FN)=正类中预测正确的数目/正类的数目
F1=精确率和召回率的调和均值

分类的应用场景
1.在银行业务中, 可以构建一个客户分类模型, 对客户按照贷款风险的大小进行分类
2.在网络安全领域,可以利用日志数据的分类对非法入侵进行检测
3.在图像处理中 , 分类可以用来检测图像中是否有人脸出现
4.在手写识别中, 分类可以用于识别手写的数字
5.在互联网搜索中, 网页的分类可以帮助网页的抓取、索引与排序
二、标注(tagging)
输入一个变量X的序列,对应输出一个变量Y的序列。
如何评价标注器的性能?某个标注器好,还是不好?
1)通用的评价指标
标注准确率(accuracy):给定数据集,标注器能正确标注的样本数占总样本数的比例。
该类的统计学习方法
1)隐马尔科夫模型
2)条件随机场
分类的应用场景
1.信息抽取
2.自然语言处理
三、回归(regression)
输入变量X,对应输出一个变量Y,Y是连续的,非离散的。目标是找到X与Y之间的映射函数。
若X只有一个,则是一元回归。若X有多个,则是多元回归。
X与Y的关系可能是线性的,也可能是非线性的。
如何评价回归函数的性能?某个回归函数是好,还是不好?
用最小二乘法(least squares)去计算出预测值和真实值之间的差异,以此来衡量函数的性能。
分类的应用场景
1.市场趋势预测
2.产品质量管理
3.客户满意度调查4.投资风险分析