数据挖掘通用框架探索
1 距离函数与原型
1.1 距离函数
对于任何类型的数据,都能轻松定义距离函数 $\delta$。对于相同的数据点对,$\delta$ 值为 0;对于其他数据点对,$\delta$ 值为 1,即 $\delta(x, x) = 0$ 且 $\delta(x, y) = 1$($x \neq y$)。这是数据挖掘算法中离散/标称数据类型最常用的距离函数。对于实数,可使用 $|x - y|$ 作为 $x$ 和 $y$ 之间的距离。
1.2 原型
原型是某类事物的代表,在给定集合 $S$ 中,原型 $o$ 是与集合 $S$ 中所有对象的平均平方距离最小的对象,即 $o = \text{argmin} q \sum {X \in S} d^2(X, q)$。这里要最小化的量是将实数集的方差概念推广到任意对象集。
原型函数 $p$ 输入类型为 $T$ 的对象集合 $S$,输出类型为 $T$ 的对象,即 $p :: \text{Set}(T) \to T$。存在两种情况:
- 情况 (a):原型是类型 $T$ 的任意对象,此时候选原型空间可能是无限的,需要有原型的封闭代数形式或采用近似算法来计算。
- 情况 (b):原型是集合 $S$ 中的一个对象,可通过 $|S|^2$ 次距离计算来得到。
在向量空间(如欧几里得空间 $\mathbb{R}^n$)中,集合对象的原型可定义为集合的质心。质心是集合中向量的(加权)均值/平均值,默认每个向量权重相等(为 $1/|S|$)。例如,给定欧几里得空间 $\mathbb{R}^n$ 中的向量集合 $S$,向量形式为 $x_
超级会员免费看
订阅专栏 解锁全文
705

被折叠的 条评论
为什么被折叠?



