最近邻规则与超立方体空间中的模式识别
在模式识别领域,最近邻规则是一种常用且有效的分类方法。本文将深入探讨可变度量最近邻规则、基于删除估计的 k 值选择,以及超立方体和离散空间中的模式识别问题。
可变度量最近邻规则
在最近邻规则中,数据可以用于选择合适的度量。对于 k - 最近邻规则,我们可以根据数据中的某些尺度信息来调整度量。例如,计算两点 $X_1$ 和 $X_2$ 之间的距离可以使用公式:
[
\left\lVert A^T(X_1 - X_2)\right\rVert = \left((X_1 - X_2)^T AA^T(X_1 - X_2)\right)^{1/2} = \left((X_1 - X_2)^T \Sigma (X_1 - X_2)\right)^{1/2}
]
其中,$(X_1 - X_2)$ 是列向量,$(\cdot)^T$ 表示其转置,$A$ 是 $d \times d$ 的变换矩阵,$\Sigma = AA^T$ 是正定矩阵。$A$ 或 $\Sigma$ 的元素可以根据一些启发式公式从数据中确定。
主成分分析的目标是找到一个变换矩阵 $A$,使得向量 $A^T X$ 的分量具有单位方差且不相关。这些方法通常基于估计 $X$ 的协方差矩阵的特征值。
下面给出一个关于一致性的定理:
定理 26.3 :设随机度量 $P_n$ 具有形式 $P_n(X, y) = \left\lVert A_n^T (x - y)\right\rVert$,其中矩阵 $A_n$ 是 $X_1, \cdots, X_n$ 的函数。假设距离相等的情况发生的概率为零,并且存
超级会员免费看
订阅专栏 解锁全文
3782

被折叠的 条评论
为什么被折叠?



