无监督学习与聚类算法详解
1. 无监督学习简介
无监督学习涵盖了多种技术,如语义分析(LSA)、概率潜在语义分析(PLSA)和潜在狄利克雷分配(LDA)。图分析也是无监督学习的一部分,其目的是揭示图中隐藏的统计模式或底层结构。链接分析是图分析的一种,专注于发现有向图中的重要节点,其中包括PageRank算法。
2. 聚类概述
聚类是一种数据分析问题,它根据样本特征的相似性或距离将给定样本分组为若干“类”或“簇”。类是给定样本集的子集,直观上,相似的样本会聚集在同一类中,而不相似的样本则分散在不同类中。样本之间的相似性或距离在聚类中起着关键作用。
聚类的目的是发现数据的特征,或者通过得到的类或簇来处理数据。它在数据挖掘、模式识别等领域有广泛应用。由于聚类仅根据样本的相似性或距离对样本进行分组,而无需事先知道类或簇的信息,因此属于无监督学习。
常见的聚类算法有很多,这里主要介绍两种最常用的算法:层次聚类和k-means聚类。
- 层次聚类 :有两种方法,凝聚式(自底向上)和分裂式(自顶向下)。
- 凝聚式方法 :首先将每个样本分配到一个类中,然后将最接近的两个类合并成一个新类,重复此操作直到满足停止条件,从而得到层次化的类。
- 分裂式方法 :先将所有样本分配到一个类中,然后将现有类中距离最远的样本划分为两个新类,重复此操作直到满足停止条件,进而得到层次化的类。
- k-means聚类 :这是一种基于中心的聚类方法,它迭代地将样本划分为k个类,使得每个
超级会员免费看
订阅专栏 解锁全文
1183

被折叠的 条评论
为什么被折叠?



