机器是如何学习的?(非监督式学习)


theme: orange

一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第21天,点击查看活动详情

众所周知,机器学习增强了人类的能力,让以前人脑不可能的事情变成了可能。机器学习目前广泛应用于金融、产品销售、新媒体、医疗、社会科学、游戏娱乐、工业制造等众多领域,它无处不在,并且在蓬勃发展!但接下来的问题是,应用场景虽然不同,但其原理都是相同的,那么机器是如何学习的?

非监督式学习

另一方面,非监督式学习算法在没有标记的数据上工作。即在训练时,没有标签供模型进行修正。从机器学习术语来说,就是只有特征变量,没有结果变量。

image.png 虽然没有标签,但是也并不意味着非监督式学习会漫无目的地学习。实际上,这些算法会寻找数据中的潜在模式或连接,并使用这些点来帮助理解/分析数据。

那么为什么不总是采用标记的数据呢?原因可能有:

  • 有时候得到标记的数据无法来使用
  • 标记的数据的成本很高
  • 数据量非常巨大,无法再合理的时间内添加标签

但无法通过标记的数据进行学习也不完全是坏事,因为当我们不知道自己到底寻找学习什么时,用非监督式学习算法可能更加有效。

分类

非监督式学习主要分为数据聚类与分群(Clustering)与数据降维(Dimension Reduction)。

数据聚类与分群

聚类是利用算法在数据点中找到相似之处,并将相似的数据分组在一起进行聚类和分群,这种典型案例有新闻聚类分群模型。聚类的依据可以是以下几点:

  • Distance(K-Means)
  • Density(DBSCAN)

image.png

image.png

数据降维

通常,数据包含了太多的特征,而且并不是所有的特征都对模型的预测能力有同样的贡献。可以使用数据降维帮助去除数据集中多余的特征。这种典型案例有人脸特征数据降维。

模型

从机器学习模型的角度,可以将非监督式学习分成不用的算法模型,包括但不限于:

  • PCA(主成分分析)
  • 聚类和分群模型
  • 协同过滤算法模型
  • Apriori关联分析模型
例子

借助于书籍《Python 大数据分析与机器学习商业案例实战》,讲解一个实际例子。

非监督式学习(训练数据中无目标变量)如下图所示,它的训练数据中只有特征变量,而没有目标变量(品种),所以它的学习目的不是预测品种。以第13章的聚类模型为例,非监督式学习可以根据这些特征将训练数据中的狗进行归类,如A类狗、B类狗、C类狗,那么对于一个新样本便可以根据它的特征来判别它属于哪一个分类。

image.png

提醒

监督式学习最适合于预测、分类、性能比较、预测分析、定价和风险评估等任务;至于非监督式学习,它在性能监测、销售功能、搜索意图以及潜在的更多方面都有一席之地。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值