自用。用于nlp课后作业整理
一 欧几里得距离(Euclidean Distance)
定义:
两点之间的直线距离,是最常用的距离测量方法
公式:
使用场合:
常用于几何空间中,衡量两点间的直线距离。
适合特征值具有相似尺度的情况,应用于K-means、KNN等
数据分布为连续型、均匀尺度的数据场景
二 曼哈顿距离(Manhattan Distance)
定义:
两点在个维度上的绝对差的累加,也称为L1距离
公式:
使用场合:
常用于网格布局或离散空间中(如城市街道)
适合高维稀疏数据的相似性计算(one-hot矩阵?)对维度差异较大的数据较为鲁棒
三 余弦距离(Cosine Distance)
定义
向量间夹角的余弦值,用于衡量方向的差异
公式
使用场合
高维稀疏向量,如文本向量的相似性比较,在nlp、推荐系统中广泛应用
四 切比雪夫距离(Chebyshev Distance)
定义
两点在各维度的最大绝对差距,也称为距离
公式
使用场合
适用于棋盘格距离(如国际象棋中国王的步数)
用于对最坏情况敏感的场景
五 马氏距离(Mahalanobis Distance)
定义
考虑数据分布和特征相关性的距离度量
公式
其中,为数据的协方差矩阵
使用场合
用于数据具有相关性或非均匀分布的场景
在多元统计分析和异常检测中广泛应用
六 闵可夫斯基距离(Minkowski Distance)
定义
欧几里得距离和曼哈顿距离的广义形式
公式
时为曼哈顿距离
时为欧几里得距离
使用场合
适用于不同距离度量的统一框架中
七 汉明距离 (Hamming Distance)
定义
两个等长字符串对应位置不相同的字符个数
公式
其中,当
; 否则为0
使用场合
比较字符串或二进制码的差异
用于纠错码和信息传输中的错误检测
八 杰卡德距离(Jaccard Distance)
定义
集合间的不相似性度量,即交集与并集之差的比例
公式
使用场合
集合、布尔向量的相似性比较
在文本相似性、推荐系统中常用