曼哈顿距离,欧式距离,余弦距离

2016-04-21_172447

 

1.曼哈顿距离

 

曼哈顿距离,叫出租车距离的。具见上图黄线,应该就能明白。

计算距离最简单的方法是曼哈顿距离。假设,先考虑二维情况,只有两个乐队 x 和 y,用户A的评价为(x1,y1),用户B的评价为(x2,y2),那么,它们之间的曼哈顿距离为 2016-04-22_161015

 

 

 

2.欧式距离

欧式距离又称欧几里得距离欧几里得度量(Euclidean Metric),以空间为基准的两点之间最短距离,与之后的切比雪夫距离的差别是,只算在空间下。说的通俗点,就是初中知识,两点之间直线最短的概念。

 

 

除了曼哈顿距离外,还可以计算两个用户之间的欧式距离。

还是先考虑两个乐队 x 和 y 的情况,假设,用户A=(x1,y1),用户B=(x2,y2),那么它们之间的欧式距离:

2016-04-22_162648

 

3.余弦距离

 

余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。

余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b和c,对应的三个角为A,B和C,那么角A的余弦为:

clip_image002

如果将三角形的两边b和c看成是两个向量,则上述公式等价于:

clip_image004

其中分母表示两个向量b和c的长度,分子表示两个向量的内积。

 

 


总之:

 

       采用哪种距离度量方法对最终结果有很大影响。例如,你的数据集有很多特征,但是如果任
意一对个体之间的欧氏距离都相等,那么你就没法通过欧氏距离进行比较了!曼哈顿距离在某些
情况下具有更高的稳定性,但是如果数据集中某些特征值很大,用曼哈顿距离的话,这些特征会
掩盖其他特征间的邻近关系。最后,再来说说余弦距离,它适用于特征向量很多的情况,但是它
丢弃了向量长度所包含的在某些场景下可能会很有用的一些信息。

 

<think>首先,用户的问题是基于提供的引用内容,询问曼哈顿距离欧式距离的定义及其在应用上的区别。用户特别提到了“应用场景”“数学定义”,所以我需要专注于这两个方面。 回顾引用内容: - 引用[1]:描述了欧式距离曼哈顿距离的主要特欧式距离强调全局最短路径,应用于聚类分析(如K-Means)图像处理。 - 引用[2]:指出欧式距离的缺,如没有考虑不同属性的量纲差异,而曼哈顿距离的公式是 \( d(x,y) = \sum_{i=1}^{n} |x_i - y_i| \)。 - 引用[3]:讨论了不同距离度量的影响,包括欧式距离曼哈顿距离余弦距离的适用场景。 - 引用[4]:关于k-近邻算法,但用户的问题是关于距离度量的,所以我应该主要参考引用[1]-[3]。 用户的上一个问题是关于加权 \(\sum w_i x_i\) 的,但当前问题转向了距离度量,所以我需要基于新提供的引用回答。 系统指令: - 所有行内数学表达式用 $...$。 - 独立公式用 $$...$$ 并单独成段。 - 使用中文回答。 - 生成相关问题。 - 在回答中引用段落时,添加引用标识,如 [^1]。 - 结构清晰,真实可靠。 回答结构: 1. **介绍**:简要定义两个距离。 2. **数学定义**:分别给出欧式距离曼哈顿距离的数学公式。 3. **应用场景**:解释它们的区别应用,基于引用。 4. **总结区别**:突出关键差异。 5. **生成相关问题**:在最后添加相关问题。 数学定义: - 欧式距离:对于 \(x = (x_1, x_2, \ldots, x_n)\) \(y = (y_1, y_2, \ldots, y_n)\),欧式距离为: \[ d_{\text{Euclidean}}(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} \] - 曼哈顿距离: \[ d_{\text{Manhattan}}(x, y) = \sum_{i=1}^{n} |x_i - y_i| \] 应用区别: - 欧式距离:几何直线距离,适用于连续空间,如聚类(K-Means)、图像处理(像素差异)。但对量纲敏感,需要归一化 [^2]。 - 曼哈顿距离:网格路径距离,更稳健于异常值,适用于离散空间,如城市街区距离、某些分类问题。但当特征值差异大时,可能掩盖其他特征 [^3]。 从引用[3]:欧式距离在特征值差异大时可能无效,曼哈顿距离更稳定但可能受大特征值影响。 相关问题生成: - 基于主题,如其他距离度量、归一化方法、在特定算法中的应用。</think>### 曼哈顿距离欧式距离的定义及应用区别 在机器学习数据分析中,距离度量是评估样本间相似性的核心工具。欧式距离(Euclidean Distance)曼哈顿距离(Manhattan Distance)是两种最常用的距离度量方法,它们在数学定义、几何意义应用场景上有显著差异。以下基于引用内容,逐步解释其定义、区别典型应用。 --- ### 1. **数学定义** #### **欧式距离** 欧式距离源于欧几里得几何,表示多维空间中两之间的直线距离。给定两个 $x = (x_1, x_2, \ldots, x_n)$ $y = (y_1, y_2, \ldots, y_n)$,其公式为: $$ d_{\text{Euclidean}}(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} $$ - **几何意义**:强调全局最短路径,类似于自然界中的“直线距离” [^1]。 - **示例**:在二维空间中, $A(1,2)$ $B(4,6)$ 的欧式距离为 $\sqrt{(4-1)^2 + (6-2)^2} = \sqrt{9 + 16} = 5$。 #### **曼哈顿距离** 曼哈顿距离基于网格路径,计算各维度绝对差值的总。公式为: $$ d_{\text{Manhattan}}(x, y) = \sum_{i=1}^{n} |x_i - y_i| $$ - **几何意义**:模拟城市街区行走路径(如曼哈顿的网格道路),强调“折线距离”而非直线 [^2]。 - **示例**: $A(1,2)$ $B(4,6)$ 的曼哈顿距离为 $|4-1| + |6-2| = 3 + 4 = 7$。 --- ### 2. **应用场景与区别** 欧式距离曼哈顿距离的选择取决于数据特性问题需求。以下是核心区别: | **方面** | **欧式距离** | **曼哈顿距离** | **关键区别** | |------------------|------------------------------------------------|------------------------------------------------|-----------------------------------------------------------------------------| | **数据敏感性** | 对特征量纲敏感,若特征值尺度差异大(如身高 vs. 体重),需归一化处理 [^2]。 | 对量纲相对稳健,但大特征值可能掩盖其他特征的邻近关系 [^3]。 | 欧式距离易受异常值影响;曼哈顿距离更稳定,但需注意特征缩放。 | | **几何特性** | 定义连续空间的最短路径,强调全局几何结构 [^1]。 | 模拟离散网格路径,适用于坐标轴对齐的空间 [^2]。 | 欧式距离适用于“自然”连续空间;曼哈顿距离适合“结构化”离散空间(如棋盘格)。 | | **计算效率** | 涉及平方开方,计算开销较大。 | 仅需绝对值,计算更高效。 | 高维数据中,曼哈顿距离常更快。 | #### **典型应用场景** - **欧式距离**: - **聚类分析**:如 K-Means 算法,通过最小化样本到聚类中心的欧式距离实现分组 [^1]。 - **图像处理**:计算像素值差异(如图像相似度比较),因其能捕捉全局变化 [^1]。 - **回归问题**:在 k-近邻(k-NN)回归中,预测值为近邻样本的加权平均(权重基于欧式距离)[^4]。 - **曼哈顿距离**: - **高维稀疏数据**:如文本分类,特征维度高但大部分为零,曼哈顿距离避免平方运算的放大效应 [^3]。 - **异常检测**:在金融风控中,对异常值不敏感(因使用绝对值而非平方)[^2]。 - **路径规划**:如机器人导航,模拟网格环境中的移动成本 [^3]。 #### **何时选择?** - **优先欧式距离**:当数据特征已归一化,且问题依赖几何直线距离(如物理空间建模)。 - **优先曼哈顿距离**:当数据量纲不一致、存在异常值,或应用场景涉及网格路径(如城市交通)[^2][^3]。 --- ### 3. **总结** 欧式距离曼哈顿距离的核心差异在于几何解释鲁棒性:欧式距离提供“最短直线”度量,但对量纲敏感;曼哈顿距离模拟“网格路径”,更稳健但需处理特征缩放问题。实际应用中,选择需结合数据特性——例如,在 K-Means 聚类中,欧式距离更常见;而在高维分类中,曼哈顿距离可能更优 [^1][^3]。正确选择距离度量能显著提升算法性能,如 k-NN 的分类准确率 [^4]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值