大数据环境下的大规模数据聚类算法解析
1. 数据科学与大数据概述
数据科学和大数据领域携手并进,已成为快速发展的研究领域之一,吸引了行业和企业的广泛关注。该领域的显著特点可用 3V(容量、多样性、可变性)或 4V(加上准确性)特征来概括。它开创了基础研究和应用研究的新方向,并催生了许多有趣的应用。
数据科学的一般方案包含多个方面:
- 描述性 :关注报告,确定发生了什么以及解释其发生的原因。
- 预测性 :涵盖对未来情况的描述和预测。
- 规范性 :着重于行动,促使某些情况发生。
这些方面共同推动了数据科学方案的发展,并暗示了所开发技术的连续使用方式。数据科学的研究模型明显以最终用户为导向,除了常规的准确性要求外,还需要具备处理海量和多变数据集的能力,以及鲁棒性、可解释性和简单性。
计算智能(CI)凭借其丰富的方法和工具,在应对数据分析的内在需求方面具有独特优势。它可以处理大量数据、设置合适的抽象级别、处理数据的分布式特性以及相关的隐私和安全要求,并在合适的抽象级别上构建可解释的结果。
2. 大数据聚类面临的挑战与解决方案
数据聚类旨在将一组点划分为尽可能相似的组,即簇。它在计算智能中起着关键作用,广泛应用于协同过滤、市场细分、趋势检测、社交网络社区检测等多个领域。
随着大数据时代的到来,数据聚类面临的关键挑战在于可扩展性,即如何在不影响性能的前提下加速聚类算法。为解决这一问题,主要探索了两个方向:
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



