曼哈顿距离(L1范数)& 欧式距离(L2范数)区别

特征空间中两个实例点的距离是两个实例点相似程度的反映。特征空间一般是n维实数向量空间 R n \bold R^n Rn(即欧式空间)。使用的距离是欧式距离,但也可以是其他距离,如更一般的 L p L_p Lp距离( L p   d i s t a n c e L_p\space distance Lp distance)或Minkowski距离。

设特征空间 χ \chi χ是n维实数向量空间 R n \bold R^n Rn x i , x j ∈ χ , x l = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T , x j = ( x j ( 1 ) , x j ( 2 ) , . . . , x j ( n ) ) T x_i,x_j\in \chi, \quad x_l=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,x_j=(x_j^{(1)},x_j^{(2)},...,x_j^{(n)})^T xi,xjχ,xl=(xi(1),xi(2),...,xi(n))Txj=(xj(1),xj(2),...,xj(n))T x i , x j x_i,x_j xi,xj L p L_p Lp距离定义为
L p ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 p L_p(x_i,x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}} Lp(xi,xj)=(l=1nxi(l)xj(l)p)p1
这里 p ≥ 1 p\geq 1 p1。当 p = 2 p=2 p=2时,称为欧氏距离(Euclidean distance),即
L 2 ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ 2 ) 1 2 L_2(x_i,x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^2)^{\frac{1}{2}} L2(xi,xj)=(l=1nxi(l)xj(l)2)21
p = 1 p=1 p=1时,称为曼哈顿距离(Manhattan distance),即
L 1 ( x i , x j ) = ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ L_1(x_i,x_j)=\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}| L1(xi,xj)=l=1nxi(l)xj(l)
p = ∞ p=\infty p=时,它是各个坐标距离的最大值,即
L ∞ ( x i , x j ) = m a x l ∣ x i ( l ) − x j ( l ) ∣ L_{\infty}(x_i,x_j)=max_{l}|x_i^{(l)}-x_j^{(l)}| L(xi,xj)=maxlxi(l)xj(l)
下图是二维空间p取不同值时,与原点的 L p L_p Lp距离为1( L p = 1 L_p=1 Lp=1)的图形。

参考资料:
《统计学习方法》

<think>嗯,用户想了解L1范数和L2范数。首先,我需要回忆一下这两个概念的定义和区别。L1范数应该就是向量各元素的绝对值之和,而L2范数是欧几里得范数,平方和的平方根。对吧? 接下来,得考虑用户可能的背景。他们可能是刚开始学习机器学习或者优化方面的内容,因为在正则化中经常用到L1和L2。所以需要解释清楚两者的数学形式和应用场景。 然后,用户可能需要知道两者的区别,比如稀疏性和鲁棒性。比如L1倾向于产生稀疏解,这在特征选择中有用,而L2防止过拟合,计算上更平滑。这部分需要详细说明,但要注意用例子帮助理解。 还有,应用实例部分,比如Lasso回归和Ridge回归,这会让用户更容易联系实际。同时,几何解释可能也有帮助,比如L1在二维空间是菱形,L2是圆形,这样约束下的最优点位置不同。 需要检查数学公式是否正确,按照用户的要求,行内公式用$...$,独立公式用$$...$$。比如L1是$\| \mathbf{x} \|_1 = \sum_{i=1}^n |x_i|$,L2是$\| \mathbf{x} \|_2 = \sqrt{\sum_{i=1}^n x_i^2}$。对吗? 还要注意语法正确,比如绝对值符号用|,平方根用\sqrt,向量用\mathbf。另外,是否需要提到其他范数,比如L0或Lp?可能不需要,用户只问了L1和L2。 可能需要提到计算上的差异,比如L2可导,容易优化,而L1在零点不可导,使用次梯度等方法。这也是为什么L1能产生稀疏解的原因,因为优化时会倾向于某些维度为零。 总结部分要对比两者的优缺点和应用场景,确保用户能根据需求选择。比如特征选择多选L1,防止过拟合选L2,或者结合成Elastic Net。 最后,检查结构是否清晰,分点是否明确,有没有使用中文术语准确,比如“正则化”、“稀疏解”、“过拟合”等。确保回答符合用户的要求,步骤清晰,帮助理解。</think>### L1范数与L2范数介绍 #### 1. **基本定义** - **L1范数**(曼哈顿范数): 对于向量 $\mathbf{x} = (x_1, x_2, \dots, x_n)$,L1范数是其各分量绝对值的和: $$\| \mathbf{x} \|_1 = \sum_{i=1}^n |x_i|$$ 例如:向量 $(3, -4)$ 的L1范数为 $|3| + |-4| = 7$。 - **L2范数**(欧几里得范数): L2范数是向量各分量平方和的平方根: $$\| \mathbf{x} \|_2 = \sqrt{\sum_{i=1}^n x_i^2}$$ 例如:向量 $(3, 4)$ 的L2范数为 $\sqrt{3^2 + 4^2} = 5$。 --- #### 2. **几何意义** - **L1范数**在几何上表现为“菱形”或“钻石形”边界(二维时)。 **L2范数**表现为“圆形”边界(二维时),高维时为超球面。 **示例**:若约束条件为 $\| \mathbf{x} \|_1 \leq 1$,解集是顶点在坐标轴上的菱形;若为 $\| \mathbf{x} \|_2 \leq 1$,解集是一个圆。 --- #### 3. **特性对比** | 特性 | L1范数 | L2范数 | |---------------------|--------------------------------|--------------------------------| | **稀疏性** | 倾向于产生稀疏解(部分分量为0) | 通常产生非稀疏解 | | **计算复杂度** | 优化时需用特殊方法(如坐标下降)| 可导,易于梯度下降等优化算法 | | **抗噪声能力** | 对离群值更鲁棒 | 对离群值敏感 | | **几何边界平滑性** | 有尖角(非光滑) | 光滑 | --- #### 4. **典型应用场景** - **L1范数**: - **特征选择**:如Lasso回归($ \min \| \mathbf{y} - X\mathbf{\beta} \|_2^2 + \lambda \| \mathbf{\beta} \|_1 $),通过稀疏性筛选重要特征。 - **鲁棒回归**:在噪声较多时减少异常点影响。 - **L2范数**: - **防止过拟合**:如Ridge回归($ \min \| \mathbf{y} - X\mathbf{\beta} \|_2^2 + \lambda \| \mathbf{\beta} \|_2^2 $),通过平滑约束降低模型复杂度。 - **物理意义明确**:常用于距离、能量等场景。 --- #### 5. **直观理解示例** - **稀疏性示例**: 假设优化问题要求 $\mathbf{\beta}$ 满足 $\| \mathbf{\beta} \|_1 \leq t$,最优解可能在坐标轴上(即某些分量为0);而L2约束的最优解更可能接近原点但不严格为0。 - **几何优化示例**: 下图展示在约束 $\| \mathbf{\beta} \|_1 \leq t$(蓝色菱形)和 $\| \mathbf{\beta} \|_2 \leq t$(红色圆)下,损失函数等高线(椭圆)的最优解(交点): - L1的解更可能位于顶点(稀疏),L2的解位于边界某点(非稀疏)。 --- #### 6. **总结** - **选择依据**: - 需要特征选择或稀疏性 → **L1范数**(如Lasso)。 - 需要平滑解或避免过拟合 → **L2范数**(如Ridge)。 - 二者结合 → **弹性网络(Elastic Net)**(同时用L1和L2正则化)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值