相似度/距离方法总结

假设两个向量\vec{x} = \left \{ x_{1}, x_{2}, .....,x_{n} \right \}, \vec{y} = \left \{ y_{1}, y_{2}, .....,y_{n} \right \}

欧式距离:

                                                  \sqrt{(x_{1} - y_{1})^2 + (x_{2} - y_{2})^2 + ....+(x_{n} - y_{n})^2}

P范式:

p = 1, 1范式:

                                                       \left | x_{1} - y_{1} \right | + \left | x_{2} - y_{2} \right | + ....+ \left | x_{n} - y_{n} \right |

p = 2, 2范式(等于欧氏距离):

                                                     \sqrt{(x_{1} - y_{1})^2 + (x_{2} - y_{2})^2 + ....+(x_{n} - y_{n})^2}

p = +\infty:

                                    \left [ |x_{1} - y_{1}|^{p} + |x_{2} - y_{2}|^{p} +.....+ |x_{n} - y_{n}|^{p} \right ]^{\frac{1}{p}}  = |x_{k} - y_{k}| (前面里面最大的一项)

上面总称闵可夫斯基距离                         dist(\vec{x}, \vec{y}) = (\sum_{1}^{n}|x_{i} - y_{i}|^p)^\frac{1}{p}

杰卡德相似系数:

                                                             J(A, B) = \frac{|A\cap B|}{|A\cup B|}

余弦相似度:

                                                                \cos \theta = \frac{\vec{x}\cdot \vec{y}}{|\vec{x}| \cdot |\vec{y}| }

等于1时,方向相同,最相似,等于0时,方向垂直,-1时,方向相反,最不相似。

皮尔逊相关系数:

不认为x, y是两个n维的向量,而是两个随机变量,分别采样出n个值\left \{ x_{1}, x_{2}, .....,x_{n} \right \}, \left \{ y_{1}, y_{2}, .....,y_{n} \right \},则可以计算出x的均值\mu _{x}, 标准差\sigma _{x},   y的均值\mu _{y}, 标准差\sigma _{y}.      x, y 的协方差记作cov(x, y), 则皮尔逊系数计算如下:

                                \rho_{x,y} = \frac{cov(x,y)}{\sigma_{x} \cdot \sigma_{y} }=\frac{ \frac{1}{n-1} \sum_{1}^{n} (x_{i} - \mu _{x}) \cdot (y_{i} - \mu _{y}) }{ \sqrt{ \frac{1}{n-1} \sum_{1}^{n} (x_{i} - \mu _{x})^2 } \cdot \sqrt{ \frac{1}{n-1} \sum_{1}^{n} (y_{i} - \mu _{y})^2 } }

                                                              = \frac{ \sum_{1}^{n} (x_{i} - \mu _{x}) \cdot (y_{i} - \mu _{y}) }{ \sqrt{\sum_{1}^{n} (x_{i} - \mu _{x})^2 } \cdot \sqrt{ \sum_{1}^{n} (y_{i} - \mu _{y})^2 } }

它的取值范围为[-1, 1], 值越大,越相关。

特殊情况下,当\mu _{x} = 0, \mu _{y} = 0时,退化成了余弦相似度。

相对熵(K-L距离)

它是衡量两个分布的距离。

                                                    D(p||q) = \sum_{x}^{ } p(x)log\frac{p(x)}{q(x)}

不具有对称性。非负。 分布完全相同时,相对熵为0, 分布差别越大,相对熵越大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值