聚类分析:目标是通过对无标记训练样本的学习,揭示数据内在的规律及性质。
KMeans
K-Means聚类算法适用于对球形簇分布的数据聚类分析,其可应用于客户细分、市场细分等分析场景。该算法对空间需求及时间需求均是适度的,另外算法收敛速度很快。算法难以发现非球形簇,且对噪声及孤立点较为敏感
模糊C均值
模糊聚类分析作为无监督机器学习的主要技术之一,是用模糊理论对重要数据分析和建模的方法。建立了样本类属的不确定性描述。在众多模糊聚类算法中,模糊C均值算法应用最广泛且较为成功。模糊C均值聚类算法通过优化目标函数得到每个样本点对所有类中心的隶属度,从而决定样本点的类属以达到自动对样本数据进行分群的目的。
EM聚类
EM(期望最大化)算法是在概率模型中寻找参数最大似然估计的算法,最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),这个过程不断交替进行。与其他聚类算法相比,EM算法可以给出每个样本被分配到每一个类的概率。能够处理异构数据,具有复杂结构的记录。适用于客户细分,客群分析等业务场景。EM算法比K-means算法计算复杂,收敛也较慢,不适于大规模数据集和高维数据。
Hierarchy
层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为:凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。
KoHoneo聚类
Kohonen网络是一种竞争型神经网络,可用于将数据集聚类到有明显区别的分组中,使得组内各样本间趋于相似,而不同组中的样本有所差异,其在训练过程中,每个神经元会与其他单元进行竞争以“赢得”每条样本。
视觉聚类
visualCluster是一种聚类算法,在视觉聚类算法中,每一样本数据点视作空间中的一个光点,于是数据集便构成空间的一幅图像。当尺度参数充分小时,每一数据点是一个类,当尺度逐渐变大时,小的数据类逐渐溶合形成大的数据类,直到尺度参数充分大时,形成一个类。
Canopy
Canopy聚类算法是一个将对象分组到类的简单、快速地方法。Canopy算法开始首先指定两个距离阈值T1,T2(T1>T2),随机选择一个数据点,创建一个包含这个点的Canopy,对于每个点,如果它到第一个点的距离小于T1,就把这个点加入这个数据点的canopy中,如果这个距离小于T2,就把此点从候选中心向量集合中移除。重复以上步骤直到候选的中心向量为空,最后形成一个Canopy集合。
幂迭代
幂迭代聚类(Power iteration clustering,PIC) 是一个可尺度化的有效聚类算法。幂迭代算法是将数据点嵌入到由相似矩阵推导出来的低维子空间中,然后通过k-means算法得出聚类结果。幂迭代算法利用数据归一化的逐对相似度矩阵,采用截断的迭代法,寻找数据集的一个超低维嵌入,低维空间的嵌入是由拉普拉斯矩阵迭代生成的伪特征向量,这种嵌入恰好是有效的聚类指标,使他在真实的数据集上好于谱聚类算法而不需要求解矩阵的特征值。
两步聚类
两步聚类算法可以同时分析连续属性和离散(分类)属性。算法中采用的度量距离包括欧氏距离及对数似然距离。该算法的特点是可以基于BIC信息准则自动确定最优聚类数。
分类分析:按照某种指定的属性特征将数据归类。
逻辑回归分类
逻辑回归算法(LogisticReg)可用于二元及多元分类问题,是分类算法的经典算法。对于二分类问题,算法输出一个二元Logistic回归模型。对于K分类问题,算法会输出一个多维Logistic回归模型,包含K-1个二分类模型。
朴素贝叶斯</