机器学习复习_伪一级动力学k的计算-优快云博客

本文链接：https://blog.youkuaiyun.com/WRStop/article/details/126737873

本文探讨了机器学习中两种重要的距离度量——欧式距离和马氏距离，以及它们在分类任务中的应用。马氏距离考虑了特征间的相关性，能消除量纲影响。接着介绍了朴素贝叶斯分类器的参数估计、最大似然估计和拉普拉斯平滑。还讨论了决策树的构建、剪枝策略以及熵和信息增益在决策树选择中的作用。最后提到了SVM的结构风险最小化原则和K-means聚类的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欧式距离与马氏距离

欧式距离：最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中

一般在机器学习模型中会涉及到衡量两个样本间的距离，如聚类、KNN，K-means等，使用的距离为欧式距离
马氏距离（Mahalanobis Distance）：是由马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度。

马氏距离有很多优点：马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。

下面我们来看一个例子：
如果我们以厘米为单位来测量人的身高，以克（g）为单位测量人的体重。每个人被表示为一个两维向量，如一个人身高173cm，体重50000g，表示为（173,50000），根据身高体重的信息来判断体型的相似程度。

我们已知小明（160,60000）；小王（160,59000）；小李（170，60000）。根据常识可以知道小明和小王体型相似。但是如果根据欧几里得距离来判断，小明和小王的距离要远远大于小明和小李之间的距离，即小明和小李体型相似。这是因为不同特征的度量标准之间存在差异而导致判断出错。

以克（g）为单位测量人的体重，数据分布比较分散，即方差大，而以厘米为单位来测量人的身高，数据分布就相对集中，方差小。马氏距离的目的就是把方差归一化，使得特征之间的关系更加符合实际情况。