距离与网络方法:数据空间中的度量与分类
在数据处理与分析领域,理解数据点之间的距离以及如何利用这些距离进行分类是至关重要的。下面将深入探讨距离度量、最近邻分类等相关内容。
1. 数据空间与网络的关联
一个由 $n$ 个示例(行)和 $d$ 个特征(列)组成的 $n × d$ 数据矩阵,自然地定义了 $d$ 维几何空间中的一组 $n$ 个点。将示例解释为空间中的点,为我们思考数据提供了强大的方式,就像天空中的星星一样。我们可以思考哪些星星离太阳最近,即最近邻是谁;还可以通过对数据进行聚类,识别出自然的星团,就像星系一样。
空间中的点集与网络中的顶点之间存在着紧密的联系。我们常常从几何点集构建网络,通过边连接相近的点对。反之,我们也可以从网络构建点集,将顶点嵌入到空间中,使得相连的顶点在嵌入空间中彼此靠近。
2. 距离的度量
在 $d$ 维空间中,测量两点 $p$ 和 $q$ 之间的距离是最基本的问题。传统的欧几里得度量是一种常见的距离测量方式,其定义为:
[d(p, q) = \sqrt{\sum_{i=1}^{d} |p_i - q_i|^2}]
然而,还有其他合理的距离概念值得考虑。
2.1 距离度量的性质
一个合理的距离度量应满足以下性质:
- 正性 :对于所有的 $x$ 和 $y$,$d(x, y) \geq 0$。
- 同一性 :当且仅当 $x = y$ 时,$d(x, y) = 0$。
- 对称性 :对于所有的 $x$ 和
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



