4-分类+回归+标注-监督学习-机器学习

本文介绍了统计学习中的三种主要任务:分类、标注和回归。详细解释了这些任务的应用场景及评估指标,并探讨了监督学习中常用的分类器和回归函数。

参考:李航《统计学习方法》


一、分类(classification)

    输入变量X的值可以是连续的,也可以是离散的,输出变量Y的值离散的,这时对Y进行预测变成了分类问题。可能的输出Y值称为类(class)。当分类的Y值多个时,称为多分类问题
分类器(classifier)监督学习从数据中学习到的函数

如何评价分类器的性能?某个分类器好,还是不好?

1)通用的评价指标

分类准确率(accuracy):给定数据集,分类器能正确分类的样本数占总样本数的比例。

2)二分类问题中的评价指标

二分类中,关注的类为正类,其他为负类。
TP=将正类预测为正类的数目。
FP=将负类预测为正类的数目。
TP+FP=将样本预测为正类的数目。
FN=将正类预测为负类的数目。
TN=将负类预测为负类的数目。
FN+TN=将样本预测为负类的数目。
精确率(precision)=P=TP/(TP+FP)=正类中预测正确的数目/所有预测为正类的数目
召回率(recall)=R=TP/(TP+FN)=正类中预测正确的数目/正类的数目
F1=精确率和召回率的调和均值

分类的应用场景

1.在银行业务中, 可以构建一个客户分类模型, 对客户按照贷款风险的大小进行分类
2.在网络安全领域,可以利用日志数据的分类对非法入侵进行检测
3.在图像处理中 , 分类可以用来检测图像中是否有人脸出现
4.在手写识别中, 分类可以用于识别手写的数字
5.在互联网搜索中, 网页的分类可以帮助网页的抓取、索引与排序

二、标注(tagging)

    输入一个变量X的序列,对应输出一个变量Y的序列。

如何评价标注器的性能?某个标注器好,还是不好?

1)通用的评价指标

标注准确率(accuracy):给定数据集,标注器能正确标注的样本数占总样本数的比例。

该类的统计学习方法

1)隐马尔科夫模型
2)条件随机场

分类的应用场景

1.信息抽取
2.自然语言处理

三、回归(regression)

    输入变量X,对应输出一个变量Y,Y是连续的,非离散的。目标是找到X与Y之间的映射函数。
若X只有一个,则是一元回归。若X有多个,则是多元回归
X与Y的关系可能是线性的,也可能是非线性的。

如何评价回归函数的性能?某个回归函数是好,还是不好?

最小二乘法(least squares)去计算出预测值和真实值之间的差异,以此来衡量函数的性能。

分类的应用场景

1.市场趋势预测
2.产品质量管理
3.客户满意度调查
4.投资风险分析


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值