医学数据分析实训项目五聚类分析--蛋白质消费结构分析--车辆驾驶行为指标

最新推荐文章于 2025-03-31 17:56:43 发布

卷末

最新推荐文章于 2025-03-31 17:56:43 发布

阅读量1.8k

点赞数 13

分类专栏： # python数据分析文章标签：数据分析数据挖掘

本文链接：https://blog.youkuaiyun.com/m0_73678713/article/details/142309825

版权

文章目录

项目五：聚类分析

实践目的

熟悉模型性能评估的方法；
熟悉并掌握 k-means 算法进行聚类分析的方法；
理解聚类分析算法并能使用 k-means 算法分析数据集。

实践平台

操作系统：Windows 7 及以上
Python 版本：3.8.x 及以上
开发环境：PyCharm 或 Anaconda 集成环境

实践内容

任务一：蛋白质消费结构分析

数据集文件名为“protein.txt”，主要记录了25个国家的9个属性：

ID：国家的 ID；
Country（国家类别）：该数据集涉及25个欧洲国家肉类和其他食品之间的关系；
关于肉类和其他食品的9个数据包括：
- RedMeat（红肉）
- WhiteMeat（白肉）
- Eggs（蛋类）
- Milk（牛奶）
- Fish（鱼类）
- Cereals（谷类）
- Starch（淀粉类）
- Nuts（坚果类）
- Fr&Veg（水果和蔬菜）

本项目实践所涉及的业务为不同国家蛋白质消费结构分析，主要从数据集中选取不同国家蛋白质食品的消费数据，在此基础上通过k-means算法模型对其进行迭代求解的聚类分析，最后评价聚类效果的优度。

步骤

数据读入
- 导入本案例所需的Python包；
- 使用pandas包中的read_table()方法将数据读入并存为DataFrame格式，查看前5行数据。
数据理解
- 通过describe()、info()方法和shape属性对读入的数据对象进行探索性分析；
- 查看数据集中是否存在缺失值、重复值和异常值；
数据准备
- 去除数据集中无关列“Country”，提取有用数据；
- 为了排除数值的量纲对结果的影响，对数据集进行以均值为中心的标准化处理（Z-Score标准化）；
模型建立及优化
- 使用k-means算法实现
  1. 使用KMeans()建立模型，设置KMeans()的聚集次数n_clusters参数为5；
  2. 使用模型对数据集进行聚类，并输出聚类结果；
  3. 使用轮廓系数对模型进行评价，设置聚集次数在2-20之间，其他参数自行设置或保持默认，输出聚集次数在2-20之间的每次的轮廓系数，并以聚集次数为横坐标，轮廓系数为纵坐标，使用pyplot()绘制可视化图形；
  4. 轮廓系数越大，聚类效果越好。找出范围内最优的聚集次数，重新建立模型；
  5. 使用优化后的模型对数据集进行聚类，输出聚类结果。
- 使用高斯混合聚类算法实现
  1. 使用GaussianMixture()建立模型，设置混合高斯模型的个数n_components；
  2. 使用模型对数据集进行聚类，并输出聚类结果；
- 使用DBSCAN密度聚类算法实现
  1. 使用DBSCAN()建立模型，设置半径eps和最小样本数min_samples；
  2. 使用模型对数据集进行聚类，并输出聚类结果；
- 使用单链接层次聚类算法实现
  1. 使用AgglomerativeClustering()建立模型，设置聚类簇数n_clusters；
  2. 使用模型对数据集进行聚类，并输出聚类结果；
- 分别绘制以上四种聚类方法对应的聚类结果散点图，并进行对比。

任务一：蛋白质消费结构分析

数据预处理

# 1. 导入本案例所需的 Python 包
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixture
from sklearn.cluster import DBSCAN
from sklearn.cluster import AgglomerativeClustering
# 设置显示中文字体
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
# 设置正常显示符号
plt.rcParams['axes.unicode_minus'] = False
import seaborn as sns

# 2. 使用 pandas 包中的 read_table()方法将数据读入并存为 DataFrame 格式，查看前 5 行数据
file_path = "input/protein.txt"

# 读取数据
data = pd.read_table(file_path, encoding='utf-8')

# 查看前 5 行数据
print(data.head(5))

# 1. 探索性分析
# 使用 describe() 方法获取数据的统计信息
print("数据统计信息:",data.describe())

# 使用 info() 方法获取数据的基本信息
print("\n数据基本信息:",data.info())

# 使用 shape 属性获取数据的行数和列数
print("\n数据形状 (行数, 列数):",data.shape)

# 2. 检查缺失值、重复值和异常值
# 检查缺失值
print()
print("\n缺失值检查:",data.isnull().sum())

# 检查重复值
print("重复行数:", data.duplicated().sum())

# # 检查异常值
print("\n异常值检查：")
# 计算每个数值列的上下限
numeric_columns = data.select_dtypes(include=[np.number]).columns
Q1 = data[numeric_columns].quantile(0.25)
Q3 = data[numeric_columns].quantile(0.75)
IQR = Q3 - Q1

# 计算异常值范围
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 检查是否有超出范围的值
outliers = ((data[numeric_columns] < lower_bound) | (data[numeric_columns] > upper_bound)).sum()
print(outliers)

# （三）数据准备
# 去除无关列 "Country"
data = data.drop(columns=['Country'])
# 2.为了排除数值的量纲对结果的影响，对数据集进行以均值为中心的标准化处理（Z-Score 标准化）；
scaler = StandardScaler()
data[numeric_columns] = scaler.fit_transform(data[numeric_columns])

# 查看标准化后的数据前5行
print("\n标准化后数据前5行：")
print(data.head())

（四）模型建立及优化

KMeans

# 使用 k-means 算法实现
# (1) 使用 KMeans()建立模型，设置 n_clusters 期望的簇的数量 参数为 5
kmeans_model = KMeans(n_clusters=5, random_state=42)
kmeans_model.fit(data)

# (2) 使用模型对数据集进行聚类，并输出聚类结果
cluster_labels = kmeans_model.labels_
data['Cluster'] = cluster_labels
print("\n聚类结果：",data.head()