数据科学中的几何距离度量
1. 距离度量简介
在机器学习领域,距离度量至关重要,它用于衡量空间或流形中两点或对象之间的距离。不同的距离度量选择会对机器学习性能产生显著影响。
距离度量的计算方式因场景而异。比如,在平面上测量两点距离,就像用尺子在纸上测量一样简单直接;但在球面上测量两点距离,就需要借助一些特殊方法,如用绳子标记最短路径,再将绳子拉直用尺子测量,这类似于在流形上通过测地线(两点间相对于弯曲流形的最短路径)提升到切空间(由切线、切面和高维切向量定义的零曲率空间)来测量距离。
还有一些情况,比如在街区中从一个房子走到另一个房子,由于不能直接穿过房屋,走人行道是更实际的选择,这体现了距离计算的复杂性。
理解数据点所在的数据空间的几何形状,能为选择合适的距离度量提供重要线索。接下来,我们将介绍一些常见的机器学习距离度量,并将其应用于 k - 近邻算法和降维算法。
2. 常见距离度量
2.1 模拟小数据集
在探索常见距离度量之前,我们先模拟一个数据集:
#create data
a<-rbinom(5,4,0.2)
b<-rbinom(5,1,0.5)
c<-rbinom(5,2,0.1)
mydata<-as.data.frame(cbind(a,b,c))
#create plot
library(scatterplot3d)
scatterplot3d(a,b,c,main="Scatterplot of 3-Dimensional Data")
这个脚
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



