目录
9.1聚类任务
在"无监督学习"中研究最多、应用最广的是"聚类" .聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个"簇" .聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。聚类的结果可用包含m个元素的簇标记向量 λ=(λ1;λ2;... ;λm) 表示.
9.2性能度量
聚类性能度量亦称聚类"有效性指标"聚类性能度量大致有两类. 一类是将聚类结果与某个"参考模型" 进行比较,称为"外部指标" ; 另一类是直接考察聚类结果而不利用任何参考模型,称为"内部指标" 。
聚类性能度量外部指标有如下:
Jaccard 系数(计算聚类结果与参考模型之间的交集与并集的比值)
:
FM 指数(计算聚类结果与参考模型之间的精确度和召回率的调和平均数)
:
Rand 指数(计算聚类结果与参考模型之间的一致决策和不一致决策的比值)
上述性能度量的结果值均在
[0
1]
区间,值越大越好.
聚类性能度量内部指标有如下:
DB 指数 (通过衡量各个簇的紧密度和分离度来评估聚类的效果):
Du
nn 指数(通过比较簇内的紧密度和簇间的分离度来评估聚类的质量):
DBI
的值越小越好,而
DI
则相反,值越大越好.
9.3距离计算
对函数 dist(. ,.),若它是一个"距离度量" (distance measure) ,则需满足一 些基本性质:
非负性: dist(Xi
,
Xj) >=
0 ;
同一性: dist(Xi
,
Xj)=0当且仅当 Xi
=
Xj ;
对称性: dist(Xi
,
Xj)) =
dist(xj
,
Xi)
;
直递性: dist(Xi
,
Xj)
<=