距离度量、分类与学习方法解析
在数据处理和分析中,距离度量和分类是非常重要的环节。不同的距离度量方法适用于不同的数据类型和应用场景,而分类则是根据距离度量来确定数据所属的类别。下面将详细介绍各种距离度量方法以及常见的分类算法。
1. 距离度量方法
1.1 欧氏距离与马氏距离
在分类任务中,欧氏距离和马氏距离是常用的距离度量方法。随着距离增大,对应的单元会变亮。欧氏距离的混淆矩阵在区分类别 3、4 和 5 时比马氏距离更困难。这是因为马氏距离利用了数据的结构(方差)来确定距离,其混淆矩阵只有主对角线是暗的,而欧氏距离混淆矩阵右下角大部分是暗的。
1.2 其他距离度量
- Bhattacharyya 距离 :其公式为 (d_B(p_1, p_2) = - \ln \sum_{i=1}^{N} \sqrt{p_{1i} \cdot p_{2i}}) 。该距离通过对数压缩较大的距离,从而降低了大距离的优先级,但它的使用相对较少,与 Matusita 差异等其他度量类似。
- 余弦相似度 :公式为 (d_C(p_1, p_2) = \cos(\theta) = \frac{p_1 \cdot p_2}{|p_1||p_2|}) ,其中“(\cdot)”表示两个向量 (p_1) 和 (p_2) 的标量积(点积或内积),“(|\cdot|)”表示每个向量的长度。该度量强调相对方向而非距离,并且对于两点绕原点的联合旋转是不变的。当 (\theta \to 0) 时,(d_C \to 1) ,表示相似度高,这与其他通过最小化距离度量来反映相似度的
超级会员免费看
订阅专栏 解锁全文
7万+

被折叠的 条评论
为什么被折叠?



