文章目录
项目五:聚类分析
实践目的
- 熟悉模型性能评估的方法;
- 熟悉并掌握 k-means 算法进行聚类分析的方法;
- 理解聚类分析算法并能使用 k-means 算法分析数据集。
实践平台
- 操作系统:Windows 7 及以上
- Python 版本:3.8.x 及以上
- 开发环境:PyCharm 或 Anaconda 集成环境
实践内容
任务一:蛋白质消费结构分析
数据集文件名为“protein.txt”,主要记录了25个国家的9个属性:
- ID:国家的 ID;
- Country(国家类别):该数据集涉及25个欧洲国家肉类和其他食品之间的关系;
- 关于肉类和其他食品的9个数据包括:
- RedMeat(红肉)
- WhiteMeat(白肉)
- Eggs(蛋类)
- Milk(牛奶)
- Fish(鱼类)
- Cereals(谷类)
- Starch(淀粉类)
- Nuts(坚果类)
- Fr&Veg(水果和蔬菜)
本项目实践所涉及的业务为不同国家蛋白质消费结构分析,主要从数据集中选取不同国家蛋白质食品的消费数据,在此基础上通过k-means算法模型对其进行迭代求解的聚类分析,最后评价聚类效果的优度。
步骤
-
数据读入
- 导入本案例所需的Python包;
- 使用pandas包中的read_table()方法将数据读入并存为DataFrame格式,查看前5行数据。
-
数据理解
- 通过describe()、info()方法和shape属性对读入的数据对象进行探索性分析;
- 查看数据集中是否存在缺失值、重复值和异常值;
-
数据准备
- 去除数据集中无关列“Country”,提取有用数据;
- 为了排除数值的量纲对结果的影响,对数据集进行以均值为中心的标准化处理(Z-Score标准化);
-
模型建立及优化
-
使用k-means算法实现
- 使用KMeans()建立模型,设置KMeans()的聚集次数n_clusters参数为5;
- 使用模型对数据集进行聚类,并输出聚类结果;
- 使用轮廓系数对模型进行评价,设置聚集次数在2-20之间,其他参数自行设置或保持默认,输出聚集次数在2-20之间的每次的轮廓系数,并以聚集次数为横坐标,轮廓系数为纵坐标,使用pyplot()绘制可视化图形;
- 轮廓系数越大,聚类效果越好。找出范围内最优的聚集次数,重新建立模型;
- 使用优化后的模型对数据集进行聚类,输出聚类结果。
-
使用高斯混合聚类算法实现
- 使用GaussianMixture()建立模型,设置混合高斯模型的个数n_components;
- 使用模型对数据集进行聚类,并输出聚类结果;
-
使用DBSCAN密度聚类算法实现
- 使用DBSCAN()建立模型,设置半径eps和最小样本数min_samples;
- 使用模型对数据集进行聚类,并输出聚类结果;
-
使用单链接层次聚类算法实现
- 使用AgglomerativeClustering()建立模型,设置聚类簇数n_clusters;
- 使用模型对数据集进行聚类,并输出聚类结果;
-
分别绘制以上四种聚类方法对应的聚类结果散点图,并进行对比。
-
任务一:蛋白质消费结构分析
数据预处理
# 1. 导入本案例所需的 Python 包
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixture
from sklearn.cluster import DBSCAN
from sklearn.cluster import AgglomerativeClustering
# 设置显示中文字体
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
# 设置正常显示符号
plt.rcParams['axes.unicode_minus'] = False
import seaborn as sns
# 2. 使用 pandas 包中的 read_table()方法将数据读入并存为 DataFrame 格式,查看前 5 行数据
file_path = "input/protein.txt"
# 读取数据
data = pd.read_table(file_path, encoding='utf-8')
# 查看前 5 行数据
print(data.head(5))
# 1. 探索性分析
# 使用 describe() 方法获取数据的统计信息
print("数据统计信息:",data.describe())
# 使用 info() 方法获取数据的基本信息
print("\n数据基本信息:",data.info())
# 使用 shape 属性获取数据的行数和列数
print("\n数据形状 (行数, 列数):",data.shape)
# 2. 检查缺失值、重复值和异常值
# 检查缺失值
print()
print("\n缺失值检查:",data.isnull().sum())
# 检查重复值
print("重复行数:", data.duplicated().sum())
# # 检查异常值
print("\n异常值检查:")
# 计算每个数值列的上下限
numeric_columns = data.select_dtypes(include=[np.number]).columns
Q1 = data[numeric_columns].quantile(0.25)
Q3 = data[numeric_columns].quantile(0.75)
IQR = Q3 - Q1
# 计算异常值范围
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 检查是否有超出范围的值
outliers = ((data[numeric_columns] < lower_bound) | (data[numeric_columns] > upper_bound)).sum()
print(outliers)
# (三)数据准备
# 去除无关列 "Country"
data = data.drop(columns=['Country'])
# 2.为了排除数值的量纲对结果的影响,对数据集进行以均值为中心的标准化处理(Z-Score 标准化);
scaler = StandardScaler()
data[numeric_columns] = scaler.fit_transform(data[numeric_columns])
# 查看标准化后的数据前5行
print("\n标准化后数据前5行:")
print(data.head())
(四)模型建立及优化
KMeans
# 使用 k-means 算法实现
# (1) 使用 KMeans()建立模型,设置 n_clusters 期望的簇的数量 参数为 5
kmeans_model = KMeans(n_clusters=5, random_state=42)
kmeans_model.fit(data)
# (2) 使用模型对数据集进行聚类,并输出聚类结果
cluster_labels = kmeans_model.labels_
data['Cluster'] = cluster_labels
print("\n聚类结果:",data.head()