基于支持向量聚类的时空数据分析方法解析
在时空数据分析领域,有两种新开发的强大方法值得关注,分别是回顾性热点分析方法 RSVC 和前瞻性支持向量聚类方法 PSVC。下面将详细介绍这两种方法及其相关实验研究。
1. 风险调整支持向量聚类(RSVC)
RSVC 是将 RNNH 的风险调整理念与现代强大的聚类机制(如支持向量机,SVM)相结合的成果,旨在提高热点分析的质量。
1.1 SVM 基础原理
SVM 是一类使用核替换思想的算法,基于统计学习理论,具有明确的优化公式,无局部极小值问题,可通过成熟的计算方法求解,还有清晰的几何解释。在 d 维输入空间中作为线性判别器分离具有二进制标签的数据点时,SVM 方法通过最大化分离不同标签数据点的平行支持平面之间的间隔,或平分包含相同标签数据点的凸包中的最近点来找到解决方案,这两个目标函数都会转化为可高效求解的二次规划问题。利用 Hilbert - Schmidt 核,线性分类算法可扩展到处理非线性情况,通过向数据添加原始数据的非线性函数作为额外属性,将非线性分类问题转化为线性问题,这个扩展的属性空间称为特征空间,且通过核的使用,无需知道从原始输入空间到扩展特征空间的映射方式即可实现非线性映射。
SVM 不仅可用于分类,还适用于广泛的机器学习和数据挖掘问题。其中,基于 SVM 的数据描述和新奇性检测(DDND)与时空数据分析特别相关。该方法旨在识别数据分布的支持,具体步骤如下:
1. 将输入数据隐式映射到由核函数(通常是高斯核)定义的高维特征空间。
2. 在特征空间中找到一个半径最小的超球体,以包含大部分数据,此问题可根据使用的距离函数表述为二次或线性规划问题。
3.