【数学笔记】描述样本相似度的几种指标

本文介绍了闵可夫斯基距离、马哈拉诺比斯距离、相关系数和夹角余弦这四种衡量样本间相似度或相关性的数学方法。闵可夫斯基距离是包含曼哈顿距离和欧式距离的广义形式,而马哈拉诺比斯距离考虑了数据的协方差结构。相关系数衡量变量间的线性相关性,夹角余弦则用于评估两个向量的方向一致性。这些概念在数据挖掘、机器学习等领域中有着广泛应用。

1.闵可夫斯基距离

给定样本集合XXX,XXXmmm维实数向量空间RmR^mRm中点的集合,其中xi,xj∈Xx_i,x_j \in Xxi,xjX,xi=(x1i,x2i,⋯ ,xmi)Tx_i=(x_{1i},x_{2i},\cdots,x_{mi})^Txi=(x1i,x2i,,xmi)T,xi=(x1j,x2j,⋯ ,xmj)Tx_i=(x_{1j},x_{2j},\cdots,x_{mj})^Txi=(x1j,x2j,,xmj)T,样本xix_ixi与样本xjx_jxj的闵可夫斯基距离(Minkowski distance)为
dij=(∑k=1m∣xki−xkj∣p)1pd_{ij}=(\sum_{k=1}^{m}|x_{ki}-x_{kj}|^p)^\frac{1}{p}dij=(k=1mxkixkjp)p1
其中p≥1p≥1p1
p=1p=1p=1时称为曼哈顿距离(Manhattan distance)
p=2p=2p=2时称为欧式距离(Euclidean distance)
p=∞p=∞p=时称为切比雪夫距离(Chebyshev distance),通过夹逼法不难证明此时dij=max⁡∣xki−xkj∣d_{ij}=\max|x_{ki}-x_{kj}|dij=maxxkixkj

闵可夫斯基距离越大相似度越小

2.马哈拉诺比斯距离

给定一个样本集合XXXX=[xij]m×nX=[x_{ij}]_{m×n }X=[xij]m×n,其协方差矩阵记作SSS。样本xix_ixi与样本xjx_jxj的马哈拉诺比斯距离为dij=[(xi−xj)TS−1(xi−xj)]12d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^\frac{1}{2}dij=[(xixj)TS1(xixj)]21
当S为单位矩阵,马哈拉诺比斯距离为欧氏距离。

马哈拉诺比斯距离越大相似度越小

3.相关系数

样本xix_ixixjx_jxj之间的相关系数为:
rij=∑k=1m(xki−xiˉ)(xkj−xjˉ)[∑k=1m(xki−xiˉ)2∑k=1m(xkj−xjˉ)2]r_{ij}=\frac{\sum_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j})}{[\sum_{k=1}^{m}{(x_{ki}-\bar{x_i}}^{})^2\sum_{k=1}^{m}(x_{kj}-\bar{x_j})^2]}rij=[k=1m(xkixiˉ)2k=1m(xkjxjˉ)2]k=1m(xkixiˉ)(xkjxjˉ)

相关系数越接近于1,相关性越大,越接近于0,相关性越小

4.夹角余弦

样本xix_ixixjx_jxj之间的夹角余弦为:
sij=∑k=1mxkixkj[∑k=1mxki2∑k=1mxkj2]12s_{ij}=\frac{\sum_{k=1}^{m}x_{ki}x_{kj}}{[\sum_{k=1}^{m}x_{ki}^2\sum_{k=1}^{m}x_{kj}^2]^\frac{1}{2}}sij=[k=1mxki2k=1mxkj2]21k=1mxkixkj
夹角余弦越接近于1,相关性越大,越接近于0,相关性越小

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值