1.概念
无监督学习:
无监督学习是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。无监督学习的主要运用包含:聚类分析、关系规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。 一个常见的无监督学习是数据聚类。在人工神经网络中,生成对抗网络、自组织映射和适应性共振理论则是最常用的非监督式学习。
聚类:
聚类是一种无监督学习。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。
2.性能度量
在机器学习中我们都需要对任务进行评价以便于进行下一步的优化,聚类的性能度量主要有一下两种。
外部指标:是指把算法得到的划分结果跟某个外部的“参考模型”(如专家给出的划分结果)比较
内部指标:是指直接考察聚类结果,不利用任何参考模型的指标。
3.距离计算
欧式距离:欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。
4.原型聚类
型聚类亦称"基于原型的聚类" (prototype-based clustering),此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用.通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解.采用不同的原型表示、不同的求解方式,将产生不同的算法:K均值,LVQ,高斯混合聚类。
k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是
创建 k 个点作为起始质心(通常是随机选择)
当任意一个点的簇分配结果发生改变时(不改变时算法结束)
对数据集中的每个数据点:
对每个质心计算质心与数据点之间的距离
将数据点分配到距其最近的簇
对每一个簇:计算簇中所有点的均值并将均值作为质心
聚类中心以及分配给它们的对象就代表一个聚类。
代码实现如下
机器学习之聚类
最新推荐文章于 2025-03-10 17:20:03 发布