无监督学习技术:聚类与K-Means算法详解
1. 无监督学习的重要性与应用场景
在当今的机器学习领域,虽然大多数应用基于监督学习,且大部分投资也倾向于此,但实际上可用数据中绝大部分是未标记的。计算机科学家Yann LeCun曾形象地比喻:“如果智能是一块蛋糕,无监督学习就是蛋糕本身,监督学习是蛋糕上的糖霜,强化学习则是樱桃。”这充分说明了无监督学习蕴含着巨大的潜力。
以制造业生产线为例,若要创建一个检测产品缺陷的系统,自动拍照容易获得大量图片,但缺乏标签。若使用传统的二元分类器,需要人工对每张图片进行标记,这既耗时又昂贵,还容易出错。而且,一旦产品发生变化,整个标记过程又得重新开始。此时,无监督学习就能发挥作用,它可以在无需人工标记每张图片的情况下,充分利用未标记的数据。
无监督学习包含多种任务和算法,常见的有降维、聚类、异常检测和密度估计。
- 聚类 :将相似的实例分组到不同的簇中,可用于数据分析、客户细分、推荐系统、搜索引擎、图像分割、半监督学习和降维等。
- 异常检测 :学习“正常”数据的特征,从而检测出异常实例,如生产线上的缺陷产品或时间序列中的新趋势。
- 密度估计 :估计生成数据集的随机过程的概率密度函数,常用于异常检测,低密度区域的实例很可能是异常值,也有助于数据分析和可视化。
2. 聚类的概念与应用
聚类是将相似实例归为一类的任务。与分类不同,聚类是无监督学习任务。例如,在鸢尾花数据集中,有标记的数据适合使用分类算法,如逻辑回归、支持向量机或随机森林分类器;而无标记的数据则需要
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



