距离与网络方法:数据空间中的度量与分类
1. 数据空间与网络的关联
在数据科学领域,一个由 n 个示例(行)和 d 个特征(列)组成的 n × d 数据矩阵,可自然地定义为 d 维几何空间中的一组 n 个点。把示例解读为空间中的点,为我们提供了一种强大的思考方式,就像将天空中的星星看作点一样。我们可以思考哪些星星离太阳最近,即寻找最近邻;还能通过对数据进行聚类,找出像银河系这样自然的星群。
空间中的点集与网络中的顶点有着紧密的联系。我们常常从几何点集构建网络,通过边连接距离相近的点对;反之,也能将网络中的顶点嵌入到空间中,使得相连的顶点在嵌入空间中彼此靠近。几何数据中的一些重要问题,如最近邻分类和聚类,很容易推广到网络数据中。
2. 距离的度量
2.1 距离度量的基本概念
在 d 维空间中,点 p 和 q 之间距离的度量是一个基本问题。虽然传统的欧几里得度量是常见的距离测量方式,其定义为:
[d(p, q) = \sqrt{\sum_{i = 1}^{d} |p_i - q_i|^2}]
但还有其他合理的距离概念值得考虑。那么,什么是距离度量呢?它与任意的评分函数有何不同?
距离度量与相似度得分(如相关系数)在增长方向上有明显区别。距离度量随着对象变得更相似而减小,而相似度函数则相反。一个合理的距离度量应满足以下数学性质:
- 正性 :对于所有的 x 和 y,(d(x, y) \geq 0)。
- 同一性 :当且仅当 (x = y) 时,(d(x, y) = 0)。
-
数据空间中的距离度量与分类
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



