机器学习 “距离” “相似度”相关总结

该博客总结了机器学习中如何利用距离和相似度进行类别判别,特别是在自然语言处理中的关键应用,这些概念源自数学的度量理论。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在机器学习中,往往通过计算距离、相似度来进行两类别之间的判别,尤其是在自然语言处理领域有着重要应用,这些概念大多源于数学领域的度量、测量等概念。

英文名中文名公式说明
Euclidean Distance欧式距离d = \sqrt{\sum_{n}^{i=1}(x_{i}-y_{i})^2 }
以古希腊数学家欧几里得命名的距离;也就是我们直观的两点之间直线最短的直线距离
Manhattan Distance曼哈顿距离d = \sum_{i=1}^{n}\left | {x_{i} - y_{i} } \right |是使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和;也就是和象棋中的“車”一样横平竖直的走过的距离;曼哈顿距离是超凸度量
Minkowski Distance闵氏距离d = \sqrt[p]{\sum_{i=1}^{n}(x_{i}-y_{i})^p}是欧式距离的推广,p=2时等价于欧氏距离,和p-范数等值
Hamming Distance海明距离逐个字符(或逐位)对比,统计不一样的位数的个数总和所得值越小,参与对比的两个元素约相似
Pearson Correlation皮尔森相关系数r = \frac{​{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})} }{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^2}}分子是两个集合的交集大小,分母是两个集合大小的几何平均值。是余弦相似性的一种形式
Cosine Similarity余弦相似度S = \frac{x\cdot y}{\left |x \right |\left | y\right |} 
Mahalanobis Distance马氏距离

d = \sqrt{(\vec{x}-\vec{y})^TS^{-1}(\vec{x}-\vec{y})}

其中S是x和y的协方差矩阵

印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法;若协方差矩阵是对角阵(diagonal),则该距离退化为欧式距离
Kullback-Leibler DivergenceK-L散度D(P\left | \right |Q)=\sum_{i=1}^{n}P_{i}log\frac{P_{i}}{Q_{i}}即相对熵;是衡量两个分布(P、Q)之间的距离;越小越相似
PMI(Pointwise Mutual Information)点对互信息pmi = log \frac{p(x,y)}{p(x)p(y)}=log\frac{p(y|x)}{p(y)}
pmi=logp(x,y)p(x)p(y)=logp(y|x)p(y)
利用co-occurance来衡量x和y的相似度;越大越相关;可以看做局部点的互信息(mutual information)
NGD(Normalized Google Distance) NGD(x,y)=\frac{max{logf(x),logf(y)}-logf(x,y)}{logM-min{logf(x),logf(y)}}这是google用来衡量两个不同的关键字(keyword)的检索结果之间的相关程度;其中f(x)代表包含了关键字x的页面数量,f(x,y)代表同时包含了关键字x和关键字y的页面的数量,M代表google所搜索的总页数;若两个关键字总是成对出现在页面上,那么NGD值为0,相反的,如果两个关键字在所有页面上都没有同时出现过,那么NGD值为无穷;该量是从normalized compression distance (Cilibrasi & Vitanyi 2003)衍生而来的
Levenshtein Distance(Edit Distance)Levenshtein距离(编辑距离)\left\{\begin{matrix} max (i,j)ifmin(i,j)==0\\ min\left\{\begin{matrix} lev_{a,b}(i-1,j)+1 \\ lev_{a,b}(i,j-1)+&&otherwise\\ lev_{a,b}(i-1,j-1)+1_{(a_{i}\neq b_{j})} \end{matrix}\right. \end{matrix}\right.是指两个字串之间,由一个转成另一个所需的最少编辑操作次数
Lee Distance李氏距离d = \sum_{i=1}^{n}\left | x_{i} -y_{i}\right |在编码理论(coding theory)中两个字符串间距离的一种度量方法
Chebyshev Distance切比雪夫距离D(p,q)=max(\left | p_{i}-q_{i} \right |)=\underset{k\rightarrow\propto }{ lim}(\sum_{i=1}^{n}\left | p_i -q_i \right |^k)^{1/k}切比雪夫距离是由一致范数(uniform norm)(或称为上确界范数)所衍生的度量,也是超凸度量

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值