分类算法:从基础到高级的全面解析
1. 协方差与距离度量
在涉及两个或多个值的计算时,可能会包含变量的组合。以变量(P)和(Q)为例,协方差的计算公式如下:
[COV = \frac{\sum_{i = 1}^{n}(P_i - \mu_i)(Q_i - \mu_i)}{n - 1}]
协方差是多变量方差的一种推广形式。在距离度量方面,马氏距离(Mahanalobis distance)的计算成本相对较高,但它具有尺度无关的重要优势,因此经常被使用。不过,为了简便起见,许多人也会使用欧几里得距离(Euclidean distance)。在后续的大多数示例中,若无特殊说明,将使用欧几里得距离,当然,也可以根据需要替换为其他距离度量方法。
2. 特征间的距离与分类方法
2.1 最近邻分类器
许多模式识别任务会使用大量特征来区分不同的类别。以鸢尾花数据集(Iris data set)为例,它包含四个特征,这对于直观地描述三个类别来说具有一定难度。下面将使用该数据集来介绍基于距离的分类器,首先是最近邻分类器。
假设存在(N)个类别(C_1, C_2, \cdots, C_N)和(M)个特征(F_1, \cdots, F_M),要对对象(P)进行分类。具体步骤如下:
1. 测量对象(P)的所有特征,并创建一个(M)维向量(v)。
2. 为所有类别中的所有对象创建特征向量。例如,类别(C_1)中的第一个特征向量记为(C_{1}^1),类别(C_3)中的第八个特征向量记为(C_{3}^8)。
3. 使用最近邻方法对(P)进行分类,需要计算向量(v)与所有类别中所有特征向量之间的距离。
4
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



