并行谱聚类与点涡驱动的被动粒子控制问题研究
并行谱聚类部分
谱聚类是一种强大的聚类算法,但在处理大规模数据时,其计算复杂度和内存消耗成为了限制因素。为了解决这些问题,研究人员采用了多种策略,下面将详细介绍相关内容。
1. FEAST库在稠密矩阵上的执行情况
在使用FEAST库进行谱聚类的初步测试中,对不同数据集在稠密矩阵上的执行时间进行了记录,具体数据如下表所示:
| 数据集 | 大小(n) | 维度(p) | 聚类数(k) | 时间(t) |
| ---- | ---- | ---- | ---- | ---- |
| Toy | 640 | 2 | 2 | 0.39 s |
| Target | 650 | 2 | 4 | 0.75 s |
| Sphere2 | 1905 | 3 | 2 | 8.19 s |
| Sphere2a | 3560 | 3 | 2 | 55.31 s |
从这些测试结果可以看出,估计M和λmin所需的时间较长,并且很难选择一个合适的步长。此外,处理大数据时,执行时间的性能并不理想。考虑使用全稠密亲和矩阵可能会对执行时间产生很大影响,因此接下来考虑对高斯亲和矩阵进行稀疏化处理。
2. 亲和矩阵的稀疏化处理
谱分类算法在处理大规模数据时成本较高,因为它需要计算一个n×n的稠密矩阵的特征对。为了克服这个限制和减少内存消耗,可以使用阈值进行稀疏化处理。亲和矩阵可以被解释为一个加权邻接图,通过设置阈值可以控制邻域的宽度,从而消除连接距离很远的数据点的边,增强同一簇内点之间的亲和性和簇之间的可分离性。
矩阵L的
超级会员免费看
订阅专栏 解锁全文
768

被折叠的 条评论
为什么被折叠?



