在机器学习中,往往通过计算距离、相似度来进行两类别之间的判别,尤其是在自然语言处理领域有着重要应用,这些概念大多源于数学领域的度量、测量等概念。
英文名 | 中文名 | 公式 | 说明 |
Euclidean Distance | 欧式距离 | 以古希腊数学家欧几里得命名的距离;也就是我们直观的两点之间直线最短的直线距离 | |
Manhattan Distance | 曼哈顿距离 | 是使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和;也就是和象棋中的“車”一样横平竖直的走过的距离;曼哈顿距离是超凸度量 | |
Minkowski Distance | 闵氏距离 | 是欧式距离的推广,p=2时等价于欧氏距离,和p-范数等值 | |
Hamming Distance | 海明距离 | 逐个字符(或逐位)对比,统计不一样的位数的个数总和 | 所得值越小,参与对比的两个元素约相似 |
Pearson Correlation | 皮尔森相关系数 | 分子是两个集合的交集大小,分母是两个集合大小的几何平均值。是余弦相似性的一种形式 | |
Cosine Similarity | 余弦相似度 | ||
Mahalanobis Distance | 马氏距离 |
其中S是x和y的协方差矩阵 | 印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法;若协方差矩阵是对角阵(diagonal),则该距离退化为欧式距离 |
Kullback-Leibler Divergence | K-L散度 | 即相对熵;是衡量两个分布(P、Q)之间的距离;越小越相似 | |
PMI(Pointwise Mutual Information) | 点对互信息 | pmi=logp(x,y)p(x)p(y)=logp(y|x)p(y) 利用co-occurance来衡量x和y的相似度;越大越相关;可以看做局部点的互信息(mutual information) | |
NGD(Normalized Google Distance) | 这是google用来衡量两个不同的关键字(keyword)的检索结果之间的相关程度;其中f(x)代表包含了关键字x的页面数量,f(x,y)代表同时包含了关键字x和关键字y的页面的数量,M代表google所搜索的总页数;若两个关键字总是成对出现在页面上,那么NGD值为0,相反的,如果两个关键字在所有页面上都没有同时出现过,那么NGD值为无穷;该量是从normalized compression distance (Cilibrasi & Vitanyi 2003)衍生而来的 | ||
Levenshtein Distance(Edit Distance) | Levenshtein距离(编辑距离) | 是指两个字串之间,由一个转成另一个所需的最少编辑操作次数 | |
Lee Distance | 李氏距离 | 在编码理论(coding theory)中两个字符串间距离的一种度量方法 | |
Chebyshev Distance | 切比雪夫距离 | 切比雪夫距离是由一致范数(uniform norm)(或称为上确界范数)所衍生的度量,也是超凸度量 |