结合多种表示的竞争学习网络进行序列数据聚类
1. 引言
序列数据在现实世界中无处不在,广泛应用于多媒体信息处理、金融数据分析等领域。与静态数据不同,序列数据之间存在高度的依赖性,因此在处理序列数据时,正确处理数据的依赖性或相关性至关重要。
聚类分析是一种有效的数据信息浓缩和总结方法,其目标是将一组未标记的对象划分为若干组或簇,使得同一簇中的对象具有一致性或同质性。聚类分析存在两个核心问题:模型选择和正确分组。前者是估计数据集内在的簇数量,后者是制定规则将相关对象组合成簇。从机器学习的角度来看,聚类分析是一项极具挑战性的无监督学习任务,因为它本质上是一个不适定问题,其解决方案常常违反一些常见假设。
虽然已经有许多聚类算法,如层次算法和非层次算法,但大多数现有算法在处理序列数据时效果不佳,因为序列数据具有高维度、高特征相关性和大量噪声等特点。竞争学习在神经网络领域被用于聚类分析,但大多数竞争学习算法难以进行模型选择,需要预先指定簇的数量。
为了解决这些问题,提出了一种将多个具有不同表示的竞争学习网络集成的方法,用于序列数据聚类。该方法有望在很大程度上解决模型选择问题,并且通过集成不同的表示来实现聚类分析的协同效应。
2. 序列数据表示
序列数据表示大致可分为全局表示和分段表示两类。全局表示通过一组基函数对序列数据进行建模,参数空间中的系数构成全局表示,可用于近似重建序列数据,常见的全局表示方法包括多项式/样条曲线拟合、离散傅里叶变换和离散小波变换等。分段表示则是根据某个准则将序列数据在关键点处划分为多个段,每个段用简洁的表示进行特征描述,所有段的表示共同构成整个分段表示,如自适应分段常数逼近和基于曲率的主成分分析段等。
超级会员免费看
订阅专栏 解锁全文
3980

被折叠的 条评论
为什么被折叠?



