聚类论文笔记
文章平均质量分 91
梅小白的进阶之路
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Meanshift均值漂移聚类算法
一、meanshift均值漂移就是把指定的样本点沿着密度上升的方向移向高密度区域。这里可以用矢量加法的几何意义来理解。参考博文Mean Shift 聚类算法meanshift为Mr(x)=1k∑xi∈Sr(x)(xi−x)M_r(x)=\frac{1}{k}\sum\limits_{x_i\in S_r(x)}(x_i-x)Mr(x)=k1xi∈Sr(x)∑(xi−x)其中Sr(x)={y:∥y−x∥<=r}S_r(x)=\{y:\|y-x\|<=r\}Sr(x)={y:∥原创 2022-03-10 17:07:38 · 3636 阅读 · 2 评论 -
变色龙算法chameleon聚类
参考论文:CHAMELEON A hierarchical clustering algorithm using dynamic modelingchamelon算法是一种层次聚类算法。一、层次聚类层次聚类算法的关键是如何判定两个子簇是最相似的。度量两个子簇相似性的常见方法有:单连接规则就是用两个子簇中最近的一对点之间的距离来刻画这两个簇的相似性。基于这种度量方法的聚类容易受异常点、噪音的影响。二、closeness和inter-connectivity1.closeness的介绍关于下原创 2022-03-07 20:45:41 · 3508 阅读 · 1 评论 -
OPTICS聚类以及python实现
一、DBSCAN的不足DBSCAN 是基于密度聚类的代表性方法,可以识别任意形状的簇和噪音点。它的两个输入参数Eps和MinPts是全局参数,使得DBSCAN不能识别不同密度的簇。对于高密度簇的核心点,在较小的Eps邻域内就可以有至少MinPts个点;对于低密度簇的核心点,在较大的Eps邻域内才可以有MinPts个点。如下图所示,基于全局参数的DBSCAN聚类结果更倾向于A、B和C。二、OPTICS 的相关概念OPTICS算法解决了DBSCAN不能识别多密度簇的问题。在DBSCAN的相关定义上,O原创 2022-03-04 15:16:58 · 4660 阅读 · 0 评论 -
Kernel K-means1
论文题目:A Large Scale Clustering Scheme for Kernel K- Means一、核函数核函数可以看作一种映射变化,把低维数据映射到高维数据,利用新空间的性质,使数据可分离。给定数据集x1,x2,⋯ ,xNx_1,x_2,\cdots,x_Nx1,x2,⋯,xN,其中xi∈RD,x_i\in R^D,xi∈RD,映射函数ϕ\phiϕ将RDR^DRD空间中的xix_ixi映射到新空间QQQ。核函数定义为:H(xi,xj)=ϕ(xi)⋅ϕ(xj)H(x_i,x原创 2022-01-24 11:48:22 · 2255 阅读 · 0 评论 -
Data Clustering: 50 Years Beyond K-Means1
论文题目:Data Clustering: 50 Years Beyond K-Means1这篇paper对聚类的发展作了较为完善的概述,适合研究聚类方向的入门者(特别是我这样的小白哈哈)一.小知识收藏1.1955年 K-means算法提出2.信息爆炸下大数据的特点:高容量,高纬度,种类多。数据类型分为:结构化数据和非结构化数据。非结构化数据包括:图片,视频,音频,文本等。3.数据分析主要分为两种:(1)探索描述:数据的特征和结构;(2)推断:基于给定数据确认模型、假设的有效性4.学习问题(利原创 2022-01-21 15:58:21 · 1268 阅读 · 0 评论 -
k-means如何选择k
论文题目:Selection of K in K-means clusteringDOI: 10.1243/095440605X82981.论文核心k-means算法如何选择k,提出的新思路是根据k-means得到的信息确定簇的个数。2.k取值的重要性k的取值影响k-means算法的性能k既不能太小,也不能太大。太小的话,不能反映数据集的特征;太大的话,与数据集对象个数接近,体现不出聚类的目的。3.现有的选择k的方法1.Values of K specified within a range原创 2022-01-19 11:26:19 · 1316 阅读 · 0 评论
分享