聚类分析:相同的归为一类,不同的归为另一类(无监督分类)
根据点(多维)的距离的远近进行分类。
在特征空间中,有很多点(特征向量),如果聚集在一起就很容易分类。
特征的选择会起决定作用。
特征的选择开始时,往往会选择多余的特征(不希望漏掉重要的特征)
反过来,维度会增加,增加复杂度。
同理,特征有些的相关度会比较大(不一定是原始特征,
还可能会出现使用在几个特征联合产生新的特征,有时有效,有时混淆)
通常采用降维。(要么去掉相关性大的特征,要么去掉不重要的特征)。
降维方法:
1、产生相关矩阵R=n*n
2、rij为第 i 与 j 的相关系数 =i j 的协方差/(i 的标准差*j 的标准差)
柯西不等式 证明 rij 从零到一
rij =0 不相关
rij=1 相关(有利于合并或者干脆略去一维)
数字化,离散化处理
连续量:用数值量化的结果带入测试
量级 :把一个范围作为一个数量化结果
名义尺度:0-女 1-男
相似性测度:
欧氏距离(点直线距离),量纲--就是对应的表示尺度单位。
我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。
马氏优缺点:
1)马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;
2)在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧氏距离计算即可。
3)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本点(3,4),(5,6)和(7,8),这种