第17章-非监督学习(1)-基于划分的聚类

简介

从9到13章基本介绍的都是监督学习的分类与回归方法,接下来我们来介绍一下非监督学习。

非监督学习只有输入量 x x x,即没有类别,又不需要与数据环境有交互进行增强学习。我们可以认为非监督学习主要是用来识别某一种模式,可以降维、也可以是其它学习模型的输入,如主成分回归等等。

非监督学习的目标大体有两类

  • 聚类:k-means ,高斯混合模型等
  • 维度压缩与成分提取:如因子分析FA、主成分分析PCA,独立成分分析ICA等

关于维度压缩与成分提取,参见第5章,本章只集中介绍一些聚类的方法。

正文

一,传统聚类模型简介
分类 模型名称 时间复杂度
基于划分的 K-means O(nkt),low,t表示迭代次数
基于划分的 K-Medoid O(k(n-k)ˆ2),high
基于划分的 PAM O(kˆ3*nˆ2) ,high
基于划分的 CLARA O(ksˆ2+k(n-k)) ,middle
基于划分的 CLARANS O(nˆ2),high
基于划分的 K-Modes
基于划分的 k-prototypes
基于模型的 混合高斯模型GMM O(nˆ2*kt),high
基于模型的 自组织映射SOM (layer),high
基于模型的 COBWEB (distribution),low
基于模型的 ART (type+layer),middle
基于网格的 STING O(n),low
基于网格的 CLIQUE O(n+kˆ2),low
基于密度的 DBSCAN O(n*logn),middle
基于密度的 OPTICS O(n*logn),middle
基于密度的 DENCLUE
基于图的 SNN(shared nearest neighbor)
基于图的 CLICK O(k*f(v, e)),low
基于图的 MST聚类 O(e*logv),middle
基于层级的 凝聚的层次聚类AGNES
基于层级的 分裂的层次聚类DIANA
基于层级的 BIRCH O(n),low
基于层级的 CURE O(sˆ2*s),low
基于层级的 ROCK O(nˆ2*logn),high
基于层级的 Chameleon O(nˆ2),high
基于模糊理论的 FCM O(n),low
基于模糊理论的 FCS (kernel),high
基于模糊理论的 MM O(vˆ2*n),middle,
二,相似性度量或相异性度量
度量名称 公式 说明
相似性度量 简单匹配系数(SMC) f 11 + f 00 f 01 + f 10 + f 11 + f 00 \frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}} f01+f10+f11+f00f11+f00 二元0-1属性的相似性度量
f 00 : f_{00}: f00: x取0,y取0的属性的个数
f 01 : f_{01}: f01: x取0,y取1的属性的个数
f 10 : f_{10}: f10: x取1,y取0的属性的个数
f 11 : f_{11}: f11: x取1,y取1的属性的个数
相似性度量 Jaccard系数 f 11 f 01 + f 10 + f 11 \frac{f_{11}}{f_{01}+f_{10}+f_{11}} f01+f10+f11f11 如果0-1属性是等重要性的如表示两种性别,则用SMC较好。
但是市场研究中往往0-1的重要性是不相等的。
比如1000商品中个,A顾客买了盐和水,B顾客买了盐和面,
那么Jaccard=1/3,而SMC=0.998
相似性度量 Tanimoto系数 x y ∥ x ∥ 2 + ∥ y ∥ 2 − x y \frac{xy}{\|x\|^2+\|y\|^2-xy} x2+y2xyxy
相似性度量 余弦相似度 c o s ( x , y ) = x ⋅ y ∥ x ∥ ∥ y ∥ = ∑ k = 1 m x k y k ∑ k = 1 m x k 2 ∑ k = 1 m y k 2 cos(x,y)=\frac{x·y}{\|x\| \|y\|}=\frac{\sum\limits_{k=1}^mx_ky_k}{\sqrt{\sum\limits_{k=1}^mx_k^2}\sqrt{\sum\limits_{k=1}^my_k^2}} cos(x,y)=xyxy=k=1mxk2 k=1myk2 k=1mxk
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值