聚类分析
——一种多元统计、无监督分类、
——按照一定的要求和规律对事物进行区分和分类的过程,在这一过程中没有任何关于分类的先验知识,仅靠事物间的相似性作为类属划分的准则。
分类:
1、传统的聚类分析是一种硬划分,即将每个待辨识的对象严格地划分到某类中,具有非此即彼地性质,因此这种类别划分地界限是分明的。
2、实际上大多数对象在性态和类属方面存在着中介性,具有亦此亦彼的性质,因此适合软划分。
模糊聚类分析
概念
模糊聚类分析:运用模糊数学的方法。模糊集理论是软划分的有力的分析工具。
模糊聚类分析方法分类:
1、基于模糊关系(矩阵):模糊传递闭包法、直接聚类法、最大树法、编网法
2、基于目标函数的聚类分析方法——模糊C均值聚类算法
主要步骤
1、数据标准化
2、建立模糊相似矩阵
3、动态聚类
数据标准化——目标:变量值处于0-1区间。
一、建立数据矩阵
设论域U={x1,x2,…,xn}为被分类对象,每个对象又由m个指标表示其性状:xi={xi1,xi2,…,xim}。故原始数据矩阵为X=(xij)nxm
方法:
(1)标准差标准化
(2)极差正规化
(3)极差标准化
(4)最大值正规化
** 二、模糊相似矩阵**
常用方法:
1、相似系数法
(2)夹角余弦法