监督学习,非监督学习

本文介绍了监督学习和非监督学习的区别,包括数据特征、应用场景和评估指标。监督学习依赖有标签数据进行模型训练,如回归和分类;而非监督学习则无需标签,用于发现数据结构,如聚类和主成分分析。文章还讨论了F-度量等评价标准和两种学习方法的适用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果数据集中样本点只包含了模型的输入x,就需要采用非监督学习的算法;如果这些样本点以<x,y>这样的输入—输出二元组的形式出现,那么就可以采用监督学习的算法

一、监督学习

根据训练集中的观测样本点来优化模型f(·),使得给定的测试样例x'作为模型输入,其输出 ŷ 尽可能接近正确输出y'。

监督学习算法主要适用于两大类问题:回归和分类。

区别:回归问题的输出是连续值,而分类问题的输出是离散值

1、回归

最简单的形式之一是一个连续函数的拟合。

(如:一个购物网站想要计算出其在某给时期的预期收益,研究人员会将相关因素如广告投放量、网站流量、优惠力度等纳入自变量根据现有数据拟合函数,得到未来某一时刻的预测值

1、均方损失函数

1、回归问题中通常使用均方损失函数作为度量模型效果的指标,最简单的求解例子之一是最小二乘法。

2、均方误差损失函数(Mean Squared Error,MSE):

3、损失函数值越小,模型预测结果越接近真实值。

2、简单线性回归:

自变量x 和因变量y 之间存在一条线性关系:

3、多元线性回归:

假设自变量和因变量y之间存在一条线性关系,即:

4、应用:

1、预测房价。自变量:面积、房龄、所处区域;因变量:房价。

2、销售额。自变量:广告投入、促销获得、季节性;因变量:销售额。

2、分类

如:预测的目标是猫,则在数据集中的猫为正样本(Positive),其他数据为负样本(Negative)。

1、准确率

1、度量分类问题的指标通常为准确率(accuracy):

对于测试集中D个样本,有 k 个被正确分类,D-k个被错误分类,则准确率为:accura=k / D。

2、不平衡问题。在一些特殊分类问题中,属于各类的样本的并不是均一分布,甚至其出现概率相差很多个数量级,这种分类问题称为不平衡问题。(在不平衡问题中,准确率就失效)

3、在不平衡问题中,我们通常使用F-度量来作为评价模型的指标。

4、定义占样本少数的类为正类(positive class),占样本多数的为负类(negative),那么预测只可能出现4种情况:

(1)将正类样本预测为正类(True Positive,TP)

(2)将负类样本预测为正类(Frue Positive,FP)

(3)将正类样本预测为负类(Frue Negative,FN)

(4)将负类样本预测为负类(True Negative,TN)

2、召回率

1、定义召回率(racall):实际为正的样本中被预测为正样本的概率

R = |TP|  /  |TP| + |FN|

2、召回率度量了在所有的正样本中模型正确检测的比率,因此也称为查全率

3、召回率越高,可以改进的空间越大。

3、精确率

1、定义精确率(precision):所有被预测为正样本中实际为正样本的概率

P = |TP| / |TP| + |FP|

2、精确率度量了在所有被模型预测为正类的样本中,模型准确预测的比率,因此也称为查准率

精确率代表对正样本结果中的预测准确程度

准确率则代表整体的预测准确程度,即包括正样本,也包括负样本。

4、精确率和召回率关系图

1、关系图

把精确率(Precision)和召回率(Recall)之间的关系用图来表达,就是下面的PR曲线:

   

平衡点(BEP)P=R

AP(Average Precision):PR曲线下的面积。

通常来说一个越好的分类器,AP值越高 mAP是多个类别AP的平均值。

这个mean的意思是对每个类的AP再求平均,得到的就是mAP的值,mAP的大小一定在[0,1]区间,越大越好。

该指标是目标检测算法中最重要的一个。

2、F-度量

F-度量则是在召回率于精确率之间的调和平均数。

有时候在实际问题上,若我们更加看重某一个度量,还可以给它加上一个权值α,称为Fα-度量:

可以看出,如果模型“不够警觉”,没有检测出一些正类样本,那么召回率就会受损;而如果模型倾向于“滥杀无辜”,那么精确率就会下降。

所以较高的F-度量,是一个较合适不平衡类问题的指标

F1分数(F1-score)是分类问题的一个衡量指标。

二、非监督学习

1、无监督学习

数据中不含有“目标”的机器学习问题通常被为无监督学习(unsupervised learning)。

在非监督学习中,数据集

只有模型的输入,而并不提供正确的输入,y⁽ⁱ⁾作为监督信号。

2、聚类问题:

聚类(clustering):给定一些样本的特征值,而不给出它们正确的分类,也不给出所有可能的类别;而是通过学习确定这些样本可以分为哪些类别、它们各自都属于哪一类。

3、主成分分析问题:

(principal component analysis)

主成分分析(PCA)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。

4、因果关系和概率图模型问题:

如果想通过物体a去推断物体b就是将物体a放在这里会增加物体b出现概率的多少,想要找到这样一个确定的促进关系即因果关系(causality) 往往会被confounder干扰到,而这个confounder就是物体a与b之间的共因

概率图模型(probabilistic graphical models)

5、生成对抗性网络:

(generative adversarial networks)

为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的非结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试,它是无监督学习的另一个重要而令人兴奋的领域。

6、非监督学习的衡量指标

1、直观检测

这是一种非量化的方法。 例如对文本的主题进行聚类,我们可以在直观上判断属于同一个类的文本是否具有某个共同的主题,这样的分类是否有明显的语义上的共同点。

2、基于任务的评价

如果聚类得到的模型被用于某个特定的任务,我们可以维持该任务中其他的设定不变,使用不同的聚类模型,通过某种指标度量该任务的最终结果来间接判断聚类模型的优劣。

3、人工标注测试集

有时候采用非监督学习的原因是人工标注成本过高,导致标注数据缺乏,只能使用无标注数据来训练。 在这种情况下,可以人工标注少量的数据作为测试集,用于建立量化的评价指标。

三、小结

1、监督学习(Supervised Learning):

(1)在监督学习中,我们使用带有标签的训练数据来教会模型如何预测或分类。

(2)每个训练样本都有一个输入特征集合和一个对应的输出标签

(3)该过程类似于学生在有老师监督下学习,老师提供正确答案并指导学生。

(4)常见的监督学习算法包括线性回归、逻辑回归、支持向量机(SVM)、决策树和随机森林等。

(5)监督学习用于解决分类问题(如垃圾邮件检测)和回归问题(如房价预测)。

2、非监督学习(Unsupervised Learning):

(1)非监督学习利用标签数据,而是寻找数据中的隐藏结构或模式

(2)它处理的是没有预先定义标签的数据集,算法试图自行发现数据中的规律。

(3)这种方法更像是孩子们通过探索和发现来学习世界,没有外部的指导。

(4)常见的非监督学习算法包括聚类算法(如K-means、层次聚类)、主成分分析(PCA)和自编码器等。

(5)非监督学习通常用于市场细分、异常检测、推荐系统和降维等任务

3、监督学习与非监督学习主要针对数据集定义。

2、监督学习:数据集需要人工标注,成本较为昂贵,但是在训练模型时往往能够保障效果

3、无监督学习:数据集一般不需要过多人工操作,可以通过爬虫等方式自动大量获得。

4、由于没有监督信息的约束,需要设计巧妙的学习算法才能有效利用无监督数据集训练模型,不过大量廉价数据可以从另一个方面提高模型性能。

5、模型评估需要根据模型的训练历史判断模型是否处于欠拟合或过拟合状态。尽管有一定的规律作为指导,而且有一些工具可以辅助分析,但是模型的评估过程一般需要较为丰富的经验。

7、如果有大量标记数据并且需要预测特定结果,则监督学习可能是最佳选择。

8、如果数据未标记或者需要探索数据的内在结构,则可能需要采用非监督学习方法。

9、此外,还有一种半监督学习和强化学习,分别结合了监督与非监督学习的一些特点,以及通过奖励系统来学习策略的方法。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值