21、无监督学习技术:聚类与K-Means算法详解

无监督学习技术:聚类与K-Means算法详解

1. 无监督学习的重要性与应用场景

在当今的机器学习领域,虽然大多数应用基于监督学习,且大部分投资也倾向于此,但实际上可用数据中绝大部分是未标记的。计算机科学家Yann LeCun曾形象地比喻:“如果智能是一块蛋糕,无监督学习就是蛋糕本身,监督学习是蛋糕上的糖霜,强化学习则是樱桃。”这充分说明了无监督学习蕴含着巨大的潜力。

以制造业生产线为例,若要创建一个检测产品缺陷的系统,自动拍照容易获得大量图片,但缺乏标签。若使用传统的二元分类器,需要人工对每张图片进行标记,这既耗时又昂贵,还容易出错。而且,一旦产品发生变化,整个标记过程又得重新开始。此时,无监督学习就能发挥作用,它可以在无需人工标记每张图片的情况下,充分利用未标记的数据。

无监督学习包含多种任务和算法,常见的有降维、聚类、异常检测和密度估计。
- 聚类 :将相似的实例分组到不同的簇中,可用于数据分析、客户细分、推荐系统、搜索引擎、图像分割、半监督学习和降维等。
- 异常检测 :学习“正常”数据的特征,从而检测出异常实例,如生产线上的缺陷产品或时间序列中的新趋势。
- 密度估计 :估计生成数据集的随机过程的概率密度函数,常用于异常检测,低密度区域的实例很可能是异常值,也有助于数据分析和可视化。

2. 聚类的概念与应用

聚类是将相似实例归为一类的任务。与分类不同,聚类是无监督学习任务。例如,在鸢尾花数据集中,有标记的数据适合使用分类算法,如逻辑回归、支持向量机或随机森林分类器;而无标记的数据则需要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值