无监督学习集成的融合方法:提升数据可视化与分析能力
1. 背景知识
1.1 数据挖掘与可视化
数据挖掘(DM)是从大量数据中筛选相关信息的过程。它被广泛应用于商业智能组织和金融分析领域,并且在科学研究中也越来越重要,因为现代实验和观测方法会产生海量数据。数据挖掘的目标是提取隐含的、先前未知且潜在有用的信息,而数据可视化是实现这一目标的重要技术之一。
1.2 人工神经网络
人工神经网络(ANN)是对动物大脑中真实神经网络的软件模拟,属于人工智能(AI)的一个分支。ANN 具有不同的应用,如模式识别、信息压缩、降维、聚类、分类和可视化等。其中,实现无监督学习算法的 ANN 尤为重要,无监督学习意味着网络不会使用带有预标记数据的数据集进行训练,类似于幼小动物在无监督的情况下学习识别环境结构。
1.3 拓扑保持映射
拓扑保持映射是用于可视化和解释高维数据集的算法,是通过可视化进行数据挖掘的有用工具。它可以通过将数据投影到更具信息性的轴上或生成表示数据集内部结构的地图来实现数据可视化。例如,Hebbian 学习可用于第一种类型的可视化,而自组织映射(SOM)是第二种类型中最常用的技术。
1.4 集成学习
人工神经网络的算法通常不稳定,而集成学习是克服监督学习算法不稳定性的常用方法。在人工智能领域,集成学习是将多个模型(如分类器或专家)策略性地生成并组合起来,以解决特定的计算智能问题。其主要目的是提高模型的性能或降低选择不适应模型的可能性。不过,目前主要的集成学习算法及其应用大多集中在监督学习领域。
超级会员免费看
订阅专栏 解锁全文
934

被折叠的 条评论
为什么被折叠?



