大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为优快云博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。
本文主要介绍了聚类算法全家族讲解(层次聚类、密度聚类、k-mean等),希望能对同学们有所帮助。
1. 简介
聚类是典型的无监督学习方法,目标是对大量未知标注的数据集,按照数据的内在相似性将其划分成多个类别,每个类别称为簇。各簇内部的数据相似度较大,而簇间的相似度小。
聚类的基本思想:
- 给定一N个对象的数据集,构造数据的k个簇。k小于等于n,需要满足以下条件:
- 每个簇至少要包含一个对象
- 每个对象属于且仅属于一个簇
- 将满足上述条件的k个簇称作一个合理划分
- 对于给定的类别数目k,首先给出初始划分,使得每一次改进后划分方案较前一次好。