距离与网络方法:数据处理的关键技术
1. 距离度量基础
在数据处理中,距离度量是一个核心概念。我们可以将一个由 n 个示例(行)和 d 个特征(列)组成的数据矩阵,看作是 d 维几何空间中的 n 个点。这种将示例解释为空间中的点的方式,为我们思考数据提供了强大的视角,就像把星星看作天空中的点一样,我们可以思考哪些星星离太阳最近,哪些星星与太阳同属银河系。
空间中的点集与网络中的顶点之间存在着紧密的联系。我们常常通过连接空间中距离较近的点对来构建网络,反之,也可以将网络中的顶点嵌入到空间中,使得相连的顶点在嵌入空间中彼此靠近。许多几何数据的重要问题,如最近邻分类和聚类,都可以自然地推广到网络数据中。
1.1 距离度量的定义与性质
距离度量与相似度得分在增长方向上有明显区别。距离度量随着对象变得更加相似而减小,而相似度函数则相反。一个合理的距离度量应满足以下数学性质:
- 正性 :对于所有的 x 和 y,d(x, y) ≥ 0。
- 同一性 :当且仅当 x = y 时,d(x, y) = 0。
- 对称性 :对于所有的 x 和 y,d(x, y) = d(y, x)。
- 三角不等式 :对于所有的 x、y 和 z,d(x, y) ≤ d(x, z) + d(z, y)。
这些性质对于数据推理非常重要,许多算法只有在距离函数是度量时才能正确工作。例如,欧几里得距离就是一种度量,而一些常见的相似度度量,如相关系数、余弦相似度/点积、有向网络中的旅行时间和最
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



