大规模聚类算法与高维搜索空间学习方法解析
1. 大规模聚类算法概述
在数据科学领域,随着数据量的不断增长,对大规模数据进行有效聚类变得至关重要。这里介绍了两种大规模聚类算法:正则化随机 k - 均值(RSKM)和固定大小核谱聚类(FSKSC)。
RSKM 通过 Map - Reduce 实现的随机优化方案并行学习聚类原型。FSKSC 则依赖 Nyström 方法加速基于核的谱聚类公式,即核谱聚类。这两种算法在不同规模的真实数据集上进行了基准测试。
实验结果显示,在调整兰德指数方面,某些方法表现更好;而根据 Davies - Bouldin 准则衡量,固定大小核谱聚类取得了最佳结果。从计算效率来看,并行 k - 均值的运行时间最短。
2. 高维搜索空间学习方法
2.1 引言
近年来数据的增长使得数据科学中需要更复杂的算法。大多数算法利用采样、数据压缩、基于密度的方法、基于网格的方法、分治法、增量学习和分布式计算等技术来处理大数据。尽管有 Spark 或 Hadoop 等大数据框架,但处理大量数据仍然是一个挑战,需要新的方法。
2.2 分类与聚类
- 分类 :是一种监督学习形式,分两步进行。首先,从带有类标签的训练数据集构建分类器;然后,使用该分类器对测试数据集中的其余数据对象进行分类。
- 聚类 :是一种无监督学习形式,通过计算数据集中对象之间的相似度将数据划分为不同的组或簇。假设存在一组 n 个对象 $O = {o_1, o_2, … , o_n}$,每个对象通常由
超级会员免费看
订阅专栏 解锁全文
5717

被折叠的 条评论
为什么被折叠?



