33、数据挖掘通用框架探索

最新推荐文章于 2025-12-23 16:04:34 发布

mmm90

最新推荐文章于 2025-12-23 16:04:34 发布

阅读量56

点赞数

CC 4.0 BY-SA版权

分类专栏：归纳数据库与数据挖掘的新纪元文章标签：数据挖掘距离函数原型

本文链接：https://blog.youkuaiyun.com/mmm90/article/details/149374801

归纳数据库与数据挖掘的新纪元专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据挖掘通用框架探索

1 距离函数与原型

1.1 距离函数

对于任何类型的数据，都能轻松定义距离函数 $\delta$。对于相同的数据点对，$\delta$ 值为 0；对于其他数据点对，$\delta$ 值为 1，即 $\delta(x, x) = 0$ 且 $\delta(x, y) = 1$（$x \neq y$）。这是数据挖掘算法中离散/标称数据类型最常用的距离函数。对于实数，可使用 $|x - y|$ 作为 $x$ 和 $y$ 之间的距离。

1.2 原型

原型是某类事物的代表，在给定集合 $S$ 中，原型 $o$ 是与集合 $S$ 中所有对象的平均平方距离最小的对象，即 $o = \text{argmin} q \sum {X \in S} d^2(X, q)$。这里要最小化的量是将实数集的方差概念推广到任意对象集。

原型函数 $p$ 输入类型为 $T$ 的对象集合 $S$，输出类型为 $T$ 的对象，即 $p :: \text{Set}(T) \to T$。存在两种情况：
- 情况 (a)：原型是类型 $T$ 的任意对象，此时候选原型空间可能是无限的，需要有原型的封闭代数形式或采用近似算法来计算。
- 情况 (b)：原型是集合 $S$ 中的一个对象，可通过 $|S|^2$ 次距离计算来得到。

在向量空间（如欧几里得空间 $\mathbb{R}^n$）中，集合对象的原型可定义为集合的质心。质心是集合中向量的（加权）均值/平均值，默认每个向量权重相等（为 $1/|S|$）。例如，给定欧几里得空间 $\mathbb{R}^n$ 中的向量集合 $S$，向量形式为 $x_