无监督学习集成的融合方法探索
1. 相关技术背景
在当今的数据驱动时代,数据挖掘(DM)成为了从海量数据中提取有价值信息的关键技术。它被广泛应用于商业智能组织和金融分析领域,同时在各科学学科中也愈发重要。数据可视化作为数据挖掘的重要技术之一,能帮助人类专家更直观地分析数据内部结构。
人工神经网络(ANN)是对动物大脑神经网络的软件模拟,属于人工智能(AI)的一个分支。ANN具有多种应用,如模式识别、信息压缩、降维、聚类、分类和可视化等,这些应用也与数据挖掘密切相关。本书主要关注采用无监督学习算法的ANN,即网络训练时不使用预标记数据集,这类似于幼小动物在无监督情况下学习识别环境结构的过程。
无监督人工神经网络在数据投影或可视化方面表现出色,可通过将数据投影到更具信息性的轴上,或生成代表数据集内部结构的地图来实现。例如,Hebbian学习可用于前者,而自组织映射(SOM)则是后者最常用的技术。拓扑保持地图算法能可视化和解释高维数据集,是通过可视化检查进行数据挖掘的有用工具,常用于可视化过程状态或财务结果。
然而,人工神经网络算法普遍存在不稳定性的问题。在监督学习算法中,集成学习是克服这种不稳定性的常用方法。集成学习是指策略性地生成和组合多个模型(如分类器或专家)来解决特定的计算智能问题,主要用于提高模型性能或降低选择不适应模型的可能性。不过,目前主要的集成学习算法及其应用大多集中在监督学习领域。
2. 研究贡献
为了将集成学习与无监督学习相结合,研究人员进行了初步探索,将简单的集成算法Bagging应用于主成分分析(PCA)。该模型有两个主要应用:一是能指示分析数据集中是否存在异常值;二是通过近似无异常值时的主成分(P
超级会员免费看
订阅专栏 解锁全文
4870

被折叠的 条评论
为什么被折叠?



