简介
随着数据量的迅速增加如何对大规模数据进行有效的聚类成为挑战性的研究课题,面向大数据的聚类算法对传统金融行业的股票投资分析、 互联网金融行业中的客户细分等金融应用领域具有重要价值, 本文对已有的大数据聚类算法,以及普通聚类算法做一个简单介绍
聚类分析是伴随着统计学、计算机学与人工智能等领域科学的发展而逐步发展起来的,为此,这些领域若有较大的研究进展,必然促进聚类分析算法的快速发展。
比如机器学习领域的人工神经网络与支持向量机的发展就出现促生了基于神经网络的聚类方法与核聚类方法。目前,基于人工神经网络的深度学习(如:AlphaGo围棋系统)也必将推动聚类分析方法的进一步发展。到目前为止,聚类研究及其应用领域已经非常广泛,因此,本文主要以聚类分析算法为主要分析对象,兼论聚类分析的全过程。
关于聚类分析,《数据挖掘概念与技术(第二版)》一书中已经有了经典的论述。然而,聚类算法又有了长足的发展与进步。
聚类算法的分类
相似性度量方法
3)曼哈顿距离(Manhattan Distance)。<