机器学习 “距离” “相似度”相关总结

最新推荐文章于 2022-06-17 20:11:50 发布

原创最新推荐文章于 2022-06-17 20:11:50 发布 · 685 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

13 篇文章

订阅专栏

该博客总结了机器学习中如何利用距离和相似度进行类别判别，特别是在自然语言处理中的关键应用，这些概念源自数学的度量理论。

在机器学习中，往往通过计算距离、相似度来进行两类别之间的判别，尤其是在自然语言处理领域有着重要应用，这些概念大多源于数学领域的度量、测量等概念。

英文名	中文名	公式	说明
Euclidean Distance	欧式距离	$d = \sqrt{\sum_{n}^{i=1}(x_{i}-y_{i})^2 }$	以古希腊数学家欧几里得命名的距离；也就是我们直观的两点之间直线最短的直线距离
Manhattan Distance	曼哈顿距离	$d = \sum_{i=1}^{n}\left \| {x_{i} - y_{i} } \right \|$	是使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和；也就是和象棋中的“車”一样横平竖直的走过的距离；曼哈顿距离是超凸度量
Minkowski Distance	闵氏距离	$d = \sqrt[p]{\sum_{i=1}^{n}(x_{i}-y_{i})^p}$	是欧式距离的推广，p=2时等价于欧氏距离，和p-范数等值
Hamming Distance	海明距离	逐个字符(或逐位)对比，统计不一样的位数的个数总和	所得值越小，参与对比的两个元素约相似
Pearson Correlation	皮尔森相关系数	$r = \frac{{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})} }{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^2}}$	分子是两个集合的交集大小，分母是两个集合大小的几何平均值。是余弦相似性的一种形式
Cosine Similarity	余弦相似度	$S = \frac{x\cdot y}{\left \|x \right \|\left \| y\right \|}$
Mahalanobis Distance	马氏距离	$d = \sqrt{(\vec{x}-\vec{y})^TS^{-1}(\vec{x}-\vec{y})}$ 其中S是x和y的协方差矩阵	印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法；若协方差矩阵是对角阵(diagonal)，则该距离退化为欧式距离
Kullback-Leibler Divergence	K-L散度	$D(P\left \| \right \|Q)=\sum_{i=1}^{n}P_{i}log\frac{P_{i}}{Q_{i}}$	即相对熵；是衡量两个分布(P、Q)之间的距离；越小越相似
PMI(Pointwise Mutual Information)	点对互信息	$pmi = log \frac{p(x,y)}{p(x)p(y)}=log\frac{p(y\|x)}{p(y)}$	pmi=logp(x,y)p(x)p(y)=logp(y\|x)p(y) 利用co-occurance来衡量x和y的相似度；越大越相关；可以看做局部点的互信息(mutual information)
NGD(Normalized Google Distance)		$NGD(x,y)=\frac{max{logf(x),logf(y)}-logf(x,y)}{logM-min{logf(x),logf(y)}}$	这是google用来衡量两个不同的关键字(keyword)的检索结果之间的相关程度；其中f(x)代表包含了关键字x的页面数量，f(x,y)代表同时包含了关键字x和关键字y的页面的数量，M代表google所搜索的总页数；若两个关键字总是成对出现在页面上，那么NGD值为0，相反的，如果两个关键字在所有页面上都没有同时出现过，那么NGD值为无穷；该量是从normalized compression distance (Cilibrasi & Vitanyi 2003)衍生而来的
Levenshtein Distance(Edit Distance)	Levenshtein距离(编辑距离)	$\left\{\begin{matrix} max (i,j)ifmin(i,j)==0\\ min\left\{\begin{matrix} lev_{a,b}(i-1,j)+1 \\ lev_{a,b}(i,j-1)+&&otherwise\\ lev_{a,b}(i-1,j-1)+1_{(a_{i}\neq b_{j})} \end{matrix}\right. \end{matrix}\right.$	是指两个字串之间，由一个转成另一个所需的最少编辑操作次数
Lee Distance	李氏距离	$d = \sum_{i=1}^{n}\left \| x_{i} -y_{i}\right \|$	在编码理论(coding theory)中两个字符串间距离的一种度量方法
Chebyshev Distance	切比雪夫距离	$D(p,q)=max(\left \| p_{i}-q_{i} \right \|)=\underset{k\rightarrow\propto }{ lim}(\sum_{i=1}^{n}\left \| p_i -q_i \right \|^k)^{1/k}$	切比雪夫距离是由一致范数(uniform norm)(或称为上确界范数)所衍生的度量，也是超凸度量

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。