大规模聚类算法解析
在数据科学和机器学习领域,大规模聚类算法是处理海量数据的重要工具。本文将详细介绍几种常见的大规模聚类算法,包括固定大小核谱聚类(FSKSC)和正则化随机 k - 均值(RSKM),并对它们的性能进行实验比较。
1. 固定大小核谱聚类(FSKSC)
当训练数据点数量 $N_{tr}$ 很大时,传统的聚类问题可能会在内存和执行时间上变得难以处理。FSKSC 方法通过求解原问题而非对偶问题来解决这个问题。
1.1 核心原理
FSKSC 基于 KSC 原目标的无约束重新表述,目标函数如下:
$$
\min_{\hat{\mathbf{w}}^{(l)},\hat{b} l} \frac{1}{2} \sum {l = 1}^{k - 1} \hat{\mathbf{w}}^{(l)T} \hat{\mathbf{w}}^{(l)} - \frac{1}{2} \sum_{l = 1}^{k - 1} \gamma_l (\hat{\boldsymbol{\Phi}} \hat{\mathbf{w}}^{(l)} + \hat{b} l \mathbf{1} {N_{tr}})^T \hat{\mathbf{D}}^{-1} (\hat{\boldsymbol{\Phi}} \hat{\mathbf{w}}^{(l)} + \hat{b} l \mathbf{1} {N_{tr}})
$$
其中,$\hat{\boldsymbol{\Phi}}$ 是近似特征矩阵,$\hat{\mathbf{D}}$ 是相应的度矩阵,$\hat{\varphi
超级会员免费看
订阅专栏 解锁全文
809

被折叠的 条评论
为什么被折叠?



