
非监督学习
文章平均质量分 73
火鸡哥
这个作者很懒,什么都没留下…
展开
-
DBSCAN
DBSCANDBSCAN是一种密度聚类算法,它基于一组参数(ϵ\epsilonϵ,MinPts)来刻画样本分布的紧密程度。1、算法原理如上图所示,DBSCAN的有两个非常重要的参数ϵ\epsilonϵ和MinPts;图中“归同类"的意思是"如果该范围内有样本已经归类,则这些样本都属于该类;否则就创建一个新类别,这些样本都属于这个新类别”。ϵ\epsilonϵ:指的是范围半径;MinP...原创 2018-10-08 16:10:11 · 1114 阅读 · 0 评论 -
KMeans聚类
KMeans聚类1、工作原理随机生成聚类中心,根据样本到聚类中心的距离进行分类,然后以各分类的样本中心为新的聚类中心,通过不断迭代更新聚类中心,以达到分类效果。 注:1、KMeans聚类是根据聚类中心进行分类的,所以需要指定聚类中心的个数,也就是分类的个数。2、KMeans聚类质量的好坏依赖于初始的聚类中心点,可以通过多次初始化聚类中心,以达到选择好的聚类结果。3、KMeans聚类迭...原创 2018-09-30 15:48:59 · 1325 阅读 · 0 评论 -
层次聚类
层次聚类1、算法原理层次聚类将所有样本当成一个聚类,然后不断合并距离最近的聚类,直到只剩下一个聚类,由此得到系统树图;最后根据设定的聚类数n,将系统树切分为n个子树,从而达到聚类效果。由上图可得,层次聚类的关键在于如何计算两个聚类的距离,根据计算两个聚类的距离的算法可以分为以下四种聚类算法:1、单链接聚类法(sklearn里没有该方法)样本间最短的距离为聚类间的距离;2、全连接聚类法...原创 2018-09-30 17:40:36 · 2851 阅读 · 0 评论 -
GMM简介
高斯混合模型无论是k-means、层次聚类还是DBSCAN,聚类后都是有明显的“分界线”的,但如果是两个混合在一起的数据,这些方法就不能很好地聚类了,而GMM却能很好地对这类混合数据进行分类,GMM是利用同类数据呈现高斯分布的原理对数据进行区分的。1、步骤第一步:初始化k个高斯分布;GMM必需的参数,n_components,指定聚类的数量第二步:将数据软聚类成我们初始化的k个高斯;...原创 2019-01-11 16:28:53 · 4604 阅读 · 0 评论 -
聚类的评价指标
我们知道,监督学习的评价指标是准确率、召回率、F1、FβF_1、F_\betaF1、Fβ、ROC-AUC等等,但聚类方法在大多数情况下数据是没有标签的,这些情况下聚类就不能使用以上的评价指标了。 聚类有自己的评价指标,大多数聚类的评价指标是通过紧凑性和可分性来定义的。紧凑性基本上是衡量一个聚类中的元素彼此之间的距离,而可分性表示不同聚类之间的距离,总的来说聚类的评价指标有以下三个类型:...原创 2019-01-12 17:16:14 · 6175 阅读 · 1 评论