简介
从9到13章基本介绍的都是监督学习的分类与回归方法,接下来我们来介绍一下非监督学习。
非监督学习只有输入量 x x x,即没有类别,又不需要与数据环境有交互进行增强学习。我们可以认为非监督学习主要是用来识别某一种模式,可以降维、也可以是其它学习模型的输入,如主成分回归等等。
非监督学习的目标大体有两类
- 聚类:k-means ,高斯混合模型等
- 维度压缩与成分提取:如因子分析FA、主成分分析PCA,独立成分分析ICA等
关于维度压缩与成分提取,参见第5章,本章只集中介绍一些聚类的方法。
正文
一,传统聚类模型简介
分类 | 模型名称 | 时间复杂度 |
---|---|---|
基于划分的 | K-means | O(nkt),low,t表示迭代次数 |
基于划分的 | K-Medoid | O(k(n-k)ˆ2),high |
基于划分的 | PAM | O(kˆ3*nˆ2) ,high |
基于划分的 | CLARA | O(ksˆ2+k(n-k)) ,middle |
基于划分的 | CLARANS | O(nˆ2),high |
基于划分的 | K-Modes | |
基于划分的 | k-prototypes | |
基于模型的 | 混合高斯模型GMM | O(nˆ2*kt),high |
基于模型的 | 自组织映射SOM | (layer),high |
基于模型的 | COBWEB | (distribution),low |
基于模型的 | ART | (type+layer),middle |
基于网格的 | STING | O(n),low |
基于网格的 | CLIQUE | O(n+kˆ2),low |
基于密度的 | DBSCAN | O(n*logn),middle |
基于密度的 | OPTICS | O(n*logn),middle |
基于密度的 | DENCLUE | |
基于图的 | SNN(shared nearest neighbor) | |
基于图的 | CLICK | O(k*f(v, e)),low |
基于图的 | MST聚类 | O(e*logv),middle |
基于层级的 | 凝聚的层次聚类AGNES | |
基于层级的 | 分裂的层次聚类DIANA | |
基于层级的 | BIRCH | O(n),low |
基于层级的 | CURE | O(sˆ2*s),low |
基于层级的 | ROCK | O(nˆ2*logn),high |
基于层级的 | Chameleon | O(nˆ2),high |
基于模糊理论的 | FCM | O(n),low |
基于模糊理论的 | FCS | (kernel),high |
基于模糊理论的 | MM | O(vˆ2*n),middle, |
二,相似性度量或相异性度量
度量名称 | 公式 | 说明 | |
---|---|---|---|
相似性度量 | 简单匹配系数(SMC) | f 11 + f 00 f 01 + f 10 + f 11 + f 00 \frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}} f01+f10+f11+f00f11+f00 | 二元0-1属性的相似性度量 f 00 : f_{00}: f00: x取0,y取0的属性的个数 f 01 : f_{01}: f01: x取0,y取1的属性的个数 f 10 : f_{10}: f10: x取1,y取0的属性的个数 f 11 : f_{11}: f11: x取1,y取1的属性的个数 |
相似性度量 | Jaccard系数 | f 11 f 01 + f 10 + f 11 \frac{f_{11}}{f_{01}+f_{10}+f_{11}} f01+f10+f11f11 | 如果0-1属性是等重要性的如表示两种性别,则用SMC较好。 但是市场研究中往往0-1的重要性是不相等的。 比如1000商品中个,A顾客买了盐和水,B顾客买了盐和面, 那么Jaccard=1/3,而SMC=0.998 |
相似性度量 | Tanimoto系数 | x y ∥ x ∥ 2 + ∥ y ∥ 2 − x y \frac{xy}{\|x\|^2+\|y\|^2-xy} ∥x∥2+∥y∥2−xyxy | |
相似性度量 | 余弦相似度 | c o s ( x , y ) = x ⋅ y ∥ x ∥ ∥ y ∥ = ∑ k = 1 m x k y k ∑ k = 1 m x k 2 ∑ k = 1 m y k 2 cos(x,y)=\frac{x·y}{\|x\| \|y\|}=\frac{\sum\limits_{k=1}^mx_ky_k}{\sqrt{\sum\limits_{k=1}^mx_k^2}\sqrt{\sum\limits_{k=1}^my_k^2}} cos(x,y)=∥x∥∥y∥x⋅y=k=1∑mxk2k=1∑myk2k=1∑mxk |