
《python机器学习基础教程》
文章平均质量分 87
向阳而生°
这个作者很懒,什么都没留下…
展开
-
聚类--DBSCAN
1、什么是DBSCNDBSCAN也是一个非常有用的聚类算法。它的主要优点:它不需要用户先验地设置簇的个数,可以划分具有复杂形状的簇,还可以找出不属于任何簇的点。DBSCAN比凝聚聚类和k均值稍慢,但仍可以扩展到相对较大的数据集。1.1算法原理DBSCAN的原理是识别特征空间的“拥挤”区域中的点,在这些区域中许多数据点靠近在一起。这些区域被称为特征空间中的密集区域。DBSCAN背后的思想:簇形成数据的密集区域,并由相对较空的区域分隔开。在密集区域内的点被称为核心样本(或核心点),它们的定原创 2022-05-07 11:22:57 · 6643 阅读 · 0 评论 -
聚类--凝聚聚类
1、什么是凝聚聚类凝聚聚类(agglomerative clustering)指的是许多基于相同原则构建的聚类算法,这一原则是:算法首先声明每个点是自己的簇,然后合并两个最相似的簇,直到满足某种停止准则为止。scikit-learn 中实现的停止准则是簇的个数,因此相似的簇被合并,直到仅剩下指定个数的簇。还有一些链接(linkage)准则,规定如何度量“最相似的簇”。这种度量总是定义在两个现有的簇之间。scikit-learn 提供了下面三种链接准则:ward,war原创 2022-05-07 11:22:09 · 2662 阅读 · 0 评论 -
聚类--KMeans
1、什么是K均值聚类k均值聚类是最简单也是最常用的聚类算法之一。它试图找到代表数据特定区域的簇中心(Cluster Center)K-means算法过程1.随机布置K个特征空间内的点作为初始的聚类中心2.对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为从属这个聚类中心3.在所有的数据都被标记过聚类中心之后,根据这些数据新分配的类簇,重新对K个聚类中心做计算4.如果一轮下来,所有的数据点从属的聚类中心与上一次的分配的类簇没有变化,那么可以迭代停止,否者回到原创 2022-05-07 11:21:14 · 1026 阅读 · 0 评论