1.闵可夫斯基距离
给定样本集合XXX,XXX是mmm维实数向量空间RmR^mRm中点的集合,其中xi,xj∈Xx_i,x_j \in Xxi,xj∈X,xi=(x1i,x2i,⋯ ,xmi)Tx_i=(x_{1i},x_{2i},\cdots,x_{mi})^Txi=(x1i,x2i,⋯,xmi)T,xi=(x1j,x2j,⋯ ,xmj)Tx_i=(x_{1j},x_{2j},\cdots,x_{mj})^Txi=(x1j,x2j,⋯,xmj)T,样本xix_ixi与样本xjx_jxj的闵可夫斯基距离(Minkowski distance)为
dij=(∑k=1m∣xki−xkj∣p)1pd_{ij}=(\sum_{k=1}^{m}|x_{ki}-x_{kj}|^p)^\frac{1}{p}dij=(k=1∑m∣xki−xkj∣p)p1
其中p≥1p≥1p≥1。
p=1p=1p=1时称为曼哈顿距离(Manhattan distance)
p=2p=2p=2时称为欧式距离(Euclidean distance)
p=∞p=∞p=∞时称为切比雪夫距离(Chebyshev distance),通过夹逼法不难证明此时dij=max∣xki−xkj∣d_{ij}=\max|x_{ki}-x_{kj}|dij=max∣xki−xkj∣
闵可夫斯基距离越大相似度越小
2.马哈拉诺比斯距离
给定一个样本集合XXX,X=[xij]m×nX=[x_{ij}]_{m×n
}X=[xij]m×n,其协方差矩阵记作SSS。样本xix_ixi与样本xjx_jxj的马哈拉诺比斯距离为dij=[(xi−xj)TS−1(xi−xj)]12d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^\frac{1}{2}dij=[(xi−xj)TS−1(xi−xj)]21
当S为单位矩阵,马哈拉诺比斯距离为欧氏距离。
马哈拉诺比斯距离越大相似度越小
3.相关系数
样本xix_ixi与xjx_jxj之间的相关系数为:
rij=∑k=1m(xki−xiˉ)(xkj−xjˉ)[∑k=1m(xki−xiˉ)2∑k=1m(xkj−xjˉ)2]r_{ij}=\frac{\sum_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j})}{[\sum_{k=1}^{m}{(x_{ki}-\bar{x_i}}^{})^2\sum_{k=1}^{m}(x_{kj}-\bar{x_j})^2]}rij=[∑k=1m(xki−xiˉ)2∑k=1m(xkj−xjˉ)2]∑k=1m(xki−xiˉ)(xkj−xjˉ)
相关系数越接近于1,相关性越大,越接近于0,相关性越小
4.夹角余弦
样本xix_ixi与xjx_jxj之间的夹角余弦为:
sij=∑k=1mxkixkj[∑k=1mxki2∑k=1mxkj2]12s_{ij}=\frac{\sum_{k=1}^{m}x_{ki}x_{kj}}{[\sum_{k=1}^{m}x_{ki}^2\sum_{k=1}^{m}x_{kj}^2]^\frac{1}{2}}sij=[∑k=1mxki2∑k=1mxkj2]21∑k=1mxkixkj
夹角余弦越接近于1,相关性越大,越接近于0,相关性越小
本文介绍了闵可夫斯基距离、马哈拉诺比斯距离、相关系数和夹角余弦这四种衡量样本间相似度或相关性的数学方法。闵可夫斯基距离是包含曼哈顿距离和欧式距离的广义形式,而马哈拉诺比斯距离考虑了数据的协方差结构。相关系数衡量变量间的线性相关性,夹角余弦则用于评估两个向量的方向一致性。这些概念在数据挖掘、机器学习等领域中有着广泛应用。
2万+

被折叠的 条评论
为什么被折叠?



