2个点马氏距离计算实例_多元统计分析——欧式距离和马氏距离

本文介绍了欧式距离和马氏距离的概念,并通过具体例子阐述了为何在存在相关性的数据中,马氏距离更能准确衡量差异。欧式距离忽略了项目间的相关性,而马氏距离通过协方差矩阵考虑了这种影响,适用于多维统计分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天介绍一下欧式距离和马氏距离。欧式距离大家都比较熟悉,但是欧式距离在某些情境下不太适用,于是印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出了马氏距离,来解决不能直接使用欧式距离的问题。

文章分为四个部分,第一部分简单介绍欧式距离,第二部分给出不能直接使用欧式距离的例子,第三部分介绍马氏距离,第四部分将欧式距离和马氏距离的优缺点作比较。

8ff2056d18ba8d0f76d4415e745723e5.gif

欧式距离

欧式距离是指欧几里得空间中两点的直线距离,设p维空间中两点x和y的为:

ea8d52ac99d9210d76f7c17e4dcc4f4c.png

那么x,y之间的欧式距离52f0760780276f2951b0ab1a977d6beb.png可以表示为:

a7ca9b9b36f3dadd3b722da7489ab58e.png

平方欧式距离为:

f00df1b6430831bb28966594bd7af03e.png

不能直接使用欧式距离的例子

7b3b582d0d958fcef8b5aacab841908b.png

如何判断两国各项目成绩之间的差距?

当我们用欧式距离来比较各国之间田径项目成绩差异的时候,首先要对数据做标准化变换。即每个项目减去各自的均值再除以标准差,这样子可以消除单位和方差差异的影响。但是尽管做到这样,我们发现,有些项目之间有较强的相关性,比如100米和200米成绩的相关性就比较强,在欧式距离的计算中我们不管各个项目之间的相关性,而是给各个分量想相同的权重。这就是欧式距离所忽视的地方,即不能消除各个项目之间相关性的影响。

因此,我们引入了马氏距离。

马氏距离

同样地,设p维空间中两点x,y为:

ea8d52ac99d9210d76f7c17e4dcc4f4c.png

则x,y之间的马氏距离52f0760780276f2951b0ab1a977d6beb.png可表示为:

1dca08dc9d1e41066d89e7e89b3ebaf9.png

x到总体的马氏距离可表示为:

f633f348036bf8ce01d11b90706b9c20.png

其中e164e145ca3c3f3798b34166a54571bf.png表示的是x和y的协方差矩阵,由于协方差矩阵的元素表示了各个分量之间的相关性,通过在欧式距离的基础上乘一个协方差矩阵的逆,马氏距离就消除了数据之间相关性的影响。

8ff2056d18ba8d0f76d4415e745723e5.gif

马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关,同时还可以排除变量之间的相关性的干扰。所以在多用统计分析中一般采用马氏距离。但是,另一方面,马氏距离夸大了微小变量的作用。同时由于马氏距离与协方差矩阵有关,因此协方差矩阵的不确定性往往容易导致无法计算出马氏距离。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值