数据挖掘6大类基本算法

最新推荐文章于 2025-05-23 22:50:37 发布

ligengdipan

最新推荐文章于 2025-05-23 22:50:37 发布

阅读量3k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：数据分析算法文章标签：数据挖掘大数据算法

本文链接：https://blog.youkuaiyun.com/ligengdipan/article/details/91488082

本文详细介绍了数据挖掘中的六种基本算法：聚类分析（包括KMeans、模糊C均值、EM、层次聚类、KoHoneo聚类、Canopy和幂迭代）、分类分析（如逻辑回归、朴素贝叶斯、Xgboost、贝叶斯网络、神经网络等）、回归分析、时序分析（ARIMA、稀疏时间序列、指数平滑、移动平均、向量自回归、回声状态网络、X11和X12）、关联规则分析（Apriori和FPGrowth）以及综合评价分析。这些算法在揭示数据内在规律、分类、预测和关联性挖掘等方面发挥重要作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类分析：目标是通过对无标记训练样本的学习，揭示数据内在的规律及性质。

KMeans

K-Means聚类算法适用于对球形簇分布的数据聚类分析，其可应用于客户细分、市场细分等分析场景。该算法对空间需求及时间需求均是适度的，另外算法收敛速度很快。算法难以发现非球形簇，且对噪声及孤立点较为敏感

模糊C均值

模糊聚类分析作为无监督机器学习的主要技术之一，是用模糊理论对重要数据分析和建模的方法。建立了样本类属的不确定性描述。在众多模糊聚类算法中，模糊C均值算法应用最广泛且较为成功。模糊C均值聚类算法通过优化目标函数得到每个样本点对所有类中心的隶属度，从而决定样本点的类属以达到自动对样本数据进行分群的目的。

EM聚类

EM（期望最大化）算法是在概率模型中寻找参数最大似然估计的算法，最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是最大化（M），这个过程不断交替进行。与其他聚类算法相比，EM算法可以给出每个样本被分配到每一个类的概率。能够处理异构数据，具有复杂结构的记录。适用于客户细分，客群分析等业务场景。EM算法比K-means算法计算复杂，收敛也较慢，不适于大规模数据集和高维数据。

Hierarchy

层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止。具体又可分为：凝聚的层次聚类：一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。分裂的层次聚类：采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。

KoHoneo聚类

Kohonen网络是一种竞争型神经网络，可用于将数据集聚类到有明显区别的分组中，使得组内各样本间趋于相似，而不同组中的样本有所差异，其在训练过程中，每个神经元会与其他单元进行竞争以“赢得”每条样本。

视觉聚类

visualCluster是一种聚类算法,在视觉聚类算法中，每一样本数据点视作空间中的一个光点，于是数据集便构成空间的一幅图像。当尺度参数充分小时，每一数据点是一个类，当尺度逐渐变大时，小的数据类逐渐溶合形成大的数据类，直到尺度参数充分大时，形成一个类。

Canopy

Canopy聚类算法是一个将对象分组到类的简单、快速地方法。Canopy算法开始首先指定两个距离阈值T1,T2（T1>T2），随机选择一个数据点，创建一个包含这个点的Canopy，对于每个点，如果它到第一个点的距离小于T1，就把这个点加入这个数据点的canopy中，如果这个距离小于T2，就把此点从候选中心向量集合中移除。重复以上步骤直到候选的中心向量为空，最后形成一个Canopy集合。

幂迭代

幂迭代聚类(Power iteration clustering，PIC) 是一个可尺度化的有效聚类算法。幂迭代算法是将数据点嵌入到由相似矩阵推导出来的低维子空间中，然后通过k-means算法得出聚类结果。幂迭代算法利用数据归一化的逐对相似度矩阵，采用截断的迭代法，寻找数据集的一个超低维嵌入，低维空间的嵌入是由拉普拉斯矩阵迭代生成的伪特征向量，这种嵌入恰好是有效的聚类指标，使他在真实的数据集上好于谱聚类算法而不需要求解矩阵的特征值。

两步聚类

两步聚类算法可以同时分析连续属性和离散(分类)属性。算法中采用的度量距离包括欧氏距离及对数似然距离。该算法的特点是可以基于BIC信息准则自动确定最优聚类数。