数据挖掘十大经典算法详解（附原理解析与代码示例）

最新推荐文章于 2025-09-16 16:33:33 发布

原创最新推荐文章于 2025-09-16 16:33:33 发布 · 1.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #算法 #经验分享 #华为

华为认证专栏收录该内容

25 篇文章

订阅专栏

📌 1. PageRank（链接分析）

应用场景：搜索引擎排名、社交网络分析

🌟 核心原理

PageRank 通过网页之间的链接关系计算网页的重要性，影响力大的网页排名更高。

网页影响力 = 所有入链页面的加权影响力之和
阻尼因子 D（通常设为 0.85） 用于模拟用户随机访问网页的行为

💡 代码示例

import networkx as nx

G = nx.DiGraph()
G.add_edges_from([("A", "B"), ("A", "C"), ("B", "C"), ("C", "A")])
pagerank = nx.pagerank(G, alpha=0.85)
print(pagerank)

📌 2. Apriori（关联规则分析）

应用场景：商品推荐、电商分析

🌟 关键概念

支持度（Support）：某商品组合出现的概率
置信度（Confidence）：购买 A 后购买 B 的概率
提升度（Lift）：A 是否提升 B 的购买概率

💡 代码示例

from mlxtend.frequent_patterns import apriori, association_rules
import pandas as pd

data = pd.DataFrame([[1, 1, 0, 1], [0, 1, 1, 0], [1, 0, 1, 1]], columns=['牛奶', '面包', '啤酒', '尿布'])
frequent_itemsets = apriori(data, min_support=0.5, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5)
print(rules)

📌 3. AdaBoost（集成学习）

应用场景：人脸识别、信用评分

🌟 核心原理

通过多个弱分类器组合成强分类器，提高分类精度
赋予分类错误样本更高的权重，重点训练

📌 4. C4.5（决策树）

应用场景：医疗诊断、信用评级

🌟 计算原理

选择信息增益率最大的特征进行决策
适用于连续数值和离散数值

💡 代码示例

from sklearn.tree import DecisionTreeClassifier

X = [[1, 2], [3, 4], [5, 6], [7, 8]]
y = [0, 1, 0, 1]
clf = DecisionTreeClassifier()
clf.fit(X, y)
print(clf.predict([[3, 5]]))

📌 5. K-Means（聚类算法）

应用场景：客户分群、图像分割

🌟 计算步骤

选择 K 个随机中心点
分配数据到最近的中心点
计算新中心点，重复直到收敛

💡 代码示例

from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1, 2], [3, 4], [5, 6], [8, 9]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
print(kmeans.labels_)

📌 6. SVM（支持向量机）

应用场景：文本分类、手写识别

💡 代码示例

from sklearn import svm

X = [[0, 0], [1, 1]]
y = [0, 1]
clf = svm.SVC(kernel="linear")
clf.fit(X, y)
print(clf.predict([[2, 2]]))

📌 7. KNN（K 近邻）

应用场景：图像识别、推荐系统

🌟 计算步骤

计算目标点与所有样本的距离
选择最近的 K 个样本
统计 K 个样本的类别，决定目标类别

💡 代码示例

from sklearn.neighbors import KNeighborsClassifier

X = [[0, 0], [1, 1], [2, 2]]
y = [0, 1, 1]
neigh = KNeighborsClassifier(n_neighbors=2)
neigh.fit(X, y)
print(neigh.predict([[1.5, 1.5]]))

📌 8. CART（分类与回归树）

应用场景：回归预测、决策分析

CART 是 C4.5 的改进版，既能做分类，也能做回归。

📌 9. EM（最大期望算法）

应用场景：概率推理、异常检测

🌟 计算步骤

E 步骤：根据当前参数估计数据的隐藏变量
M 步骤：根据隐藏变量最大化似然函数

📌 10. 朴素贝叶斯（概率分类）

应用场景：垃圾邮件分类、情感分析

🌟 计算原理

基于贝叶斯定理，计算样本属于某个类别的概率。

💡 代码示例

from sklearn.naive_bayes import GaussianNB

X = [[1, 2], [2, 3], [3, 4]]
y = [0, 1, 1]
gnb = GaussianNB()
gnb.fit(X, y)
print(gnb.predict([[2.5, 3.5]]))