Mahalanobis(马氏)距离

本文介绍了马氏距离的概念及其与欧式距离的区别。马氏距离能够更好地处理样本特征间的相关性,并且不受量纲影响。文章还讨论了马氏距离的优缺点及在实际应用中的意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

当提到距离的时候,一般都会想到欧氏距离,更远一些还会想到范数,我们熟悉的欧式距离虽然很有用,但是也有明显的缺点,它将样本的不同属性(特征)之间的差别等同对待,但是在很多时候,样本的不同属性对于区分样本有着不同的重要性,此时,我们需要采用不同的距离函数,Mahalanobis(马氏)距离就考虑了样本各种特征之间的联系。
Mahalanobis(马氏)距离是由印度统计学家马哈拉洛比斯提出的,表示数据的协方差距离。它是一种有效计算两个未知样本即相似度的方法。其实欧式距离是马氏距离的特殊情况。马氏距离考虑了样本各种特征之间的联系(例如一条关于身高的信息会带来关于体重的信息,两者之间具有关联性),并且独立于测量尺度。
马氏距离定义为两个服从同一分布并且其协方差矩阵为S的随机变量之间的差异程度。假设有M个样本X1~Xm,协方差矩阵S,则向量Xi与向量Xj之间的马氏距离计算公式为:

这里写图片描述

从该定义公式可以明显看出,当协方差矩阵S为单位矩阵时(各个样本向量之间独立同分布),此时的马氏距离就变成了欧式距离。若协方差矩阵是对角矩阵,马氏距离就成了标准化欧式距离。
马氏距离的优缺点:
优点:
(1) 不受量纲的影响,两个样本之间的马氏距离与原始数据的测量单位无关;
(2) 由标准化数据和中心化数据计算出的两个样本之间的马氏距离相同,即分别对两个样本进行标准化和中心化,两种方式计算得出的马氏距离相同;
(3) 马氏距离能排除变量(样本)之间相关性的干扰
缺点:
(1) 马氏距离的计算是建立在总体样本的基础上,即如果拿同样的两个样本放入不同的总体中,计算得出的样本间的马氏距离通常是不同的;
(2) 在计算马氏距离的时候要考虑协方差矩阵是否可逆,而且协方差矩阵会使马氏距离计算不稳定
马氏距离的性质:非负性、对称性和三角不等式。
马氏距离在回归分析中是测量某一自变量的观测量与同一自变量所有观测量平均值差异的统计量,该值越大,说明该观测量为影响点的可能性越大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值