一,欧几里德相似度(Euclidean Distance)
欧几里德距离
假设想,x,y是n维空间的两点,他们之间欧几里德的距离公式如下:
d(x,y)=(xi−yi)2 d(x,y) = \sqrt{(x_i-y_i)^2} d(x,y)=(xi−yi)2
我们可以看出当n = 2时,欧几里德距离就是平面上两点之间的距离
欧几里德相似度计算公式如下:
sim(x,y)=11+d(x,y) sim(x,y)={\frac {\rm1} {1+d(x,y)}}sim(x,y)=1+d(x,y)1
二,皮尔森相似度(Pearson Correlation Coefficient)
皮尔森相关系数,一把用于计算两个定距变量之间联系的紧密程度,他们的取值在[-1,+1]之间。
皮尔森相关系数计算公式如下:
以上公式等价,其中E()代表数学期望,cov代表协方差,N表示变量取值的个数。
余弦(cosine)相似度
余弦相似度的计算公式为:
sim(X,Y)=cosθ=x⃗y⃗∣∣x∣∣⋅∣∣y∣∣=∑i=1nxiyi∑i=1n(xi)2∑i=1n(yi)2sim(X,Y)=cos\theta={{\vec{x}\vec{y}}\over{||x||\cdot ||y||}}={{\sum_{i=1}^nx_iy_i}\over{\sqrt{\sum_{i=1}^n(x_i)^2}\sqrt{\sum_{i=1}^n(y_i)^2}}}sim(X,Y)=cosθ=∣∣x∣∣⋅∣∣y∣∣xy=∑i=1n(xi)2∑i=1n(yi)2∑i=1nxiyi